IT之傢今日(5月25日)消息,巴塞羅那超級計算中心(BSC)和加泰羅尼亞理工大學(UPC)的研究人員開發瞭一種將手語翻譯成文本的新工具,以給予聽覺障礙者更多包容性和可及性。該工具利用人工智能技術,包括自我註意機制和更快的吞吐量,以更準確地理解手語者的姿勢並產生準確的文字轉寫。
該工具基於 How2Sign 數據集,這是一個公開可用的大規模、多模態和多視圖數據集,包括 80 小時的美國手語教學視頻和相應的英語文字記錄。該數據集由 BSC 和 UPC 發佈,用於訓練模型,以便將手語轉換為文本。研究人員使用膨脹式三維網絡(I3D)對數據進行預處理,這是一種視頻提取方法,可以對視頻進行三維過濾,直接從視頻中獲取時空信息。並使用瞭一個轉化器式的機器學習模型,與 ChatGPT 等其他人工智能工具背後的模型類似。
該研究的主要作者 Laia Tarrés 表示:“我們開發的新工具是以前發佈的名為 How2Sign 的出版物的延伸,在那裡,訓練模型所需的數據被公佈。利用這些已經可用的數據,我們開發瞭一個新的開源軟件,能夠學習視頻和文本之間的映射。”
研究人員發現,他們的模型能夠產生有意義的翻譯,但仍存在改進的空間。該工具尚處於實驗階段,研究人員將繼續努力,以創建一個能夠與無聽力損失者使用的技術相媲美的工具。
Laia Tarrés 同時表示:“這個自動手語翻譯的開放工具是對關註無障礙環境的科學界的寶貴貢獻,它的發表代表瞭向為所有人創造更具包容性和無障礙的技術邁出的重要一步。”
發表評論 取消回复