周二,Meta宣布推出SeamlessM4T,一種用于語音和文本翻譯的多模態(tài)人工智能模型。作為一種能夠處理文本和音頻的神經(jīng)網(wǎng)絡(luò),它可以執(zhí)行文本到語音、語音到文本、語音到語音和文本到文本的翻譯,支持「最多 100 種語言」,Meta 表示,它的目標是幫助說不同語言的人更有效地交流。
繼續(xù) Meta 相對開放的人工智能方法,它正在以研究許可(CC BY-NC 4.0)的形式發(fā)布 SeamlessM4T,允許開發(fā)者在此基礎(chǔ)上進行開發(fā)。他們還發(fā)布了 SeamlessAlign,Meta 稱之為「迄今最大的開放式多模式翻譯數(shù)據(jù)集,總共挖掘了 270,000 個小時的語音和文本對齊」。這將有可能啟動其他研究人員訓(xùn)練未來翻譯人工智能模型的過程。
在 Meta 的博客中宣傳的 SeamlessM4T 的特性中,該公司表示該模型能夠執(zhí)行語音識別(將語音轉(zhuǎn)換為文本)、語音到文本翻譯(將口語音頻翻譯為不同語言的文本)、語音到語音翻譯(提供語音,輸出翻譯后的語音)以及文本到文本翻譯(類似于 Google 翻譯的功能)和文本到語音翻譯(提供文本,將其翻譯并以另一種語言呈現(xiàn)出來)。每個文本翻譯功能支持將近 100 種語言,語音輸出功能支持大約 36 種輸出語言。
在 SeamlessM4T 的公告中,Meta 提到了 Babel Fish, 一種虛構(gòu)的魚,來自道格拉斯·亞當斯經(jīng)典的科幻小說系列《銀河系漫游指南》,它可以立即翻譯任何口頭語言:
構(gòu)建一個像銀河系漫游指南中虛構(gòu)的 Babel Fish 一樣的通用語言翻譯器是具有挑戰(zhàn)性的,因為現(xiàn)有的語音到語音和語音到文本系統(tǒng)只覆蓋了世界上語言的一小部分。但我們相信,我們今天宣布的工作在這一旅程中是向前邁出的重要一步。
它們是如何訓(xùn)練的?根據(jù) Seamless4MT 研究報告,Meta 的研究人員「創(chuàng)建了一個多模式語料庫,其中含有自動對齊的超過 470,000 個小時的語音翻譯,稱為 SeamlessAlign」(在前面已經(jīng)提及)。然后,他們「使用人工標注和偽標注數(shù)據(jù)對這個語料庫的一個子集進行了篩選,總計 406,000 個小時」。
與往常一樣,Meta 對其訓(xùn)練數(shù)據(jù)的來源有些含糊。文本數(shù)據(jù)來自「與 NLLB 中部署的相同數(shù)據(jù)集」(從維基百科、新聞來源、腳本演講和其他來源中提取的句子組成,由專業(yè)人員翻譯)。根據(jù)研究論文,SeamlessM4T 的語音數(shù)據(jù)來自「400 萬小時的原始音頻,來源于一個公開可用的網(wǎng)絡(luò)數(shù)據(jù)庫」,其中 100 萬小時是英語。Meta 沒有具體說明使用哪個存儲庫或音頻剪輯的出處。
Meta 遠非第一家提供機器學(xué)習(xí)翻譯工具的人工智能公司。Google 翻譯自 2006 年以來就使用機器學(xué)習(xí)技術(shù),大型語言模型(如 GPT-4)以其在語言之間的翻譯能力而聞名。但是,在音頻處理方面,最近這項技術(shù)變得非常熱門。在九月份,OpenAI 發(fā)布了自己的開源語音到文本翻譯模型,名為 Whisper,它可以在音頻中識別語音并將其翻譯成文本。
SeamlessM4T 擴展了多語言翻譯的趨勢,并且Meta 表示 SeamlessM4T 的「單一系統(tǒng)方法」——一個單一的人工智能模型而不是多個模型組合在一條鏈上(類似于 Meta 之前的一些音頻處理技術(shù))——減少了錯誤,增加了翻譯的效率。
關(guān)于 SeamlessM4T 如何運作的更多技術(shù)細節(jié)可以在 Meta 的網(wǎng)站上獲得,其代碼和權(quán)重(實際訓(xùn)練的神經(jīng)網(wǎng)絡(luò)文件)可以在Hugging Face 上找到。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們