超17萬個視頻！英偉達蘋果等巨頭被曝違規用數據訓練AI

37 閱讀 0 評論 0 點讚

7月17日消息，據媒體報道，包括NVIDIA、蘋果、Salesforce和Anthropic在內的多傢科技巨頭，被曝光涉嫌違規使用數據，用於訓練其AI模型。

這些公司被發現使用瞭超過173536個YouTube視頻的字幕數據，而這些數據的獲取並未得到視頻創作者的許可。

這些公司所使用的數據集名為“YouTube Subtitles”，由非營利組織EleutherAI創建，該數據集包含瞭來自超過48000個頻道的視頻文本。

其中不乏知名教育機構和媒體公司的內容，例如可汗學院、麻省理工學院、哈佛大學等，此外，一些廣受歡迎的YouTube創作者，如MrBeast等的視頻也被包括在內。

此前，EleutherAI發佈瞭名為“Pile”的數據匯編，其中的大部分數據集都是對公眾開放的，包括YouTube Subtitles。

不過值得註意的是，蘋果在使用Pile數據集訓練OpenELM模型時，並未直接下載數據，因此在技術層面上，是EleutherAI違反瞭YouTube的使用條款。

YouTube明確禁止未經授權從平臺獲取素材，同時這些數據不僅用於訓練AI，還可能涉及到版權和隱私問題。

創作者們也對此表示震驚和不滿，因為他們並未被告知自己的作品被用於商業目的，更遑論從中獲得任何補償。

超17萬個視頻！英偉達蘋果等巨頭被曝違規用數據訓練AI

點讚(0) 打賞

暫無評論