Meta開源像語言識別系統，模型識別唇語翻譯6種語言，本地部署人人可用

98 閱讀 0 評論 0 點讚

Meta開源視聽語音識別系統MuAViC，大幅刷新SOTA，直接下載本地可用！

不知道大傢是否還記得年初火爆全網的反黑大劇《狂飆》中，最後幾集因為導演刪改劇情，演員嘴型和臺詞完全對不上的事嗎？

後邊有懂唇語的硬核劇迷，為瞭看到原版劇情，直接開始翻譯。

來源：娛樂寡姐

Meta為瞭弄清楚孟德海到底黑化瞭沒最近開源瞭一個AI語音-視頻識別系統：MuAViC，讓大傢動一動手指頭，就能看懂沒有聲音的人物講瞭啥，還能精確識別嘈雜背景當中特定人物的語音。

Meta利用TED/TEDx的視頻語音素材，制作瞭MuAViC中的數據集。其中包含瞭1200小時，9種語言的文本語音視頻素材，還有英語與6種語言之間的雙向翻譯。

語音識別數據的詳細內容：

英語到6種語言翻譯的素材具體包括：

6種語言到英語的翻譯素材具體包括：

論文

針對這個系統，Mate的研究人員也發佈瞭論文介紹它與現有SOTA的對比。

https://arxiv.org/pdf/2303.00628.pdf

視聽語料庫的收集

英語語料收集

對於英語語料，研究人員重新使用瞭LRS3-TED中的視聽數據，並按照原始數據進行瞭拆分。

通過匹配LRS3-TED中的轉錄和TED2020中的源句，研究人員從機器翻譯語料庫TED2020中找到瞭這些會談的人工翻譯。

然後將匹配的LRS3-TED示例與TED2020中相應的目標句子配對，以獲得翻譯標簽。

研究人員對開發集和測試集示例采用精確文本匹配，以確保最佳準確性。

為瞭提高訓練集的匹配召回率，研究人員開發瞭一種模糊文本匹配策略：如果句對雙方包含相同數量的句段，他們首先用標點符號分割TED2020源句和目標句。

然後，通過去除標點符號和小寫來規范TED2020和LRS3-TED文本。

最後，在兩個語料庫之間進行精確文本匹配。

對於TED2020中沒有匹配的LRS3-TED訓練集示例，研究人員從機器翻譯模型M2M-100 418M中獲取偽翻譯標簽，該模型采用默認的解碼超參數法。

非英語語料的收集

對於非英語語料，研究人員重新使用瞭之前研究中的mTEDx收集的純音頻數據、轉錄和文本翻譯。他們也按照mTEDx來進行數據拆分。

他們獲取原始錄音的視頻軌跡，並將處理過的視頻數據與音頻數據對齊，形成視聽數據，與LRS3-TED類似。

雖然mTEDx中的所有音頻數據都已轉錄，但其中隻有一個子集進行瞭翻譯。

研究人員從M2M-100 418M中獲取偽翻譯標簽，用於使用默認解碼超參數的未翻譯訓練集示例。

實驗

實驗設置

對於視聽語音識別（AVSR）和視聽語音翻譯（AVST），研究人員使用英語AV-HuBERT大型預訓練模型，該模型結合LRS3-TED和 VoxCeleb2的英語部分進行訓練。

研究人員按照AV-HuBERT論文中的方式來微調超參數，不同之處在於他們將雙語模型微調為30K更新，將多語言 AVSR 模型微調為90K更新。研究人員分別凍結X-En AVST和En-X AVST模型的第一個4K和24K更新的預訓練編碼器。

AVSR測試

安靜環境中

研究人員在純音頻（"A"）和視聽（"AV"）模式下對 AVSR 模型進行瞭評估，前者在微調和推理中僅利用音頻模式，而後者則同時利用音頻和視覺模式。

如下表1所示，英語 AVSR 模型的測試誤碼率分別為 2.5 和 2.3。

對於非英語 AVSR，研究人員對預先訓練好的英語AVHuBERT模型進行瞭微調，微調方式可以是對每種語言分別進行微調（8 種單語模型），也可以是對所有8種非英語語言聯合進行微調（多語模型）。

其測試誤碼率見下表2。

研究人員發現，在視聽模式下，研究人員的單語AVSR模型的WER平均降低瞭52%，優於同類ASR基線（Transformer，單語）。

表1

表2

表3

噪音環境中

表3的第一部分顯示瞭研究人員的 AVSR 模型在高噪音環境下的測試誤碼率。

研究人員註意到，SOTA多語種ASR模型Whisper在這一具有挑戰性的設置中表現糟糕，種語言的平均誤碼率為174.3。

相比之下，研究人員的單語言AVSR模型在純音頻模式下的平均誤碼率分別為70.2和66.7。

在視聽模式下，研究人員模型的平均誤碼率大幅下降瞭32%，這表明它們有效地利用瞭視覺信息來減輕嘈雜環境的幹擾。

在純音頻和視聽模式下，研究人員的多語言AVSR模型在每種非英語語言（除El語外）上的表現都優於單語言模型。

點讚(0) 打賞

本文分类：數碼生活
本文标签：模型英語視聽語言音頻 avsr 人員文本 lrs3-ted 語音
浏览次数：98 次瀏覽
发布日期：2023-08-27 17:40:36
本文链接：https://shuohk.com/cms/shumashenghuo/52534.html

Meta開源像語言識別系統，模型識別唇語翻譯6種語言，本地部署人人可用

评论列表共有 0 條評論

發表評論取消回复

Meta開源像語言識別系統，模型識別唇語翻譯6種語言，本地部署人人可用

蘋果電視來瞭！就這？

中國“天河”新一代超算再奪世界圖計算領域桂冠

蘋果發佈iOS 18.2 Beta 4：iPhone重啟相冊加密失效Bug仍未修復

澳門——福隆新街步行區榮獲2023-2024年度“長城獎-文旅好品牌”案例征集大賽年度城市地標優秀案例

评论列表 共有 0 條評論

發表評論 取消回复

评论列表共有 0 條評論

發表評論取消回复