沒有數(shù)據(jù)訓(xùn)練大模型？OpenAI 總裁帶隊轉(zhuǎn)錄YouTube視頻，谷歌、Meta 也想盡數(shù)據(jù)收割套路

AIGC動態(tài)2年前 (2024)發(fā)布 AI前線

AIGC動態(tài)歡迎閱讀

原標題：沒有數(shù)據(jù)訓(xùn)練大模型？OpenAI 總裁帶隊轉(zhuǎn)錄YouTube視頻，谷歌、Meta 也想盡數(shù)據(jù)收割套路
關(guān)鍵字：政策,數(shù)據(jù),報告,知識產(chǎn)權(quán),模型
文章來源：AI前線
內(nèi)容字數(shù)：16615字

內(nèi)容摘要：

作者|CadeMetz,CeciliaKang,
SheeraFrenkel,StuartA.ThompsonandNicoGrant
譯者|核子可樂
策劃|褚杏娟
2021 年底，OpenAI 開始面臨數(shù)據(jù)供應(yīng)荒。
這家人工智能研究機構(gòu)在開發(fā)最新 AI 系統(tǒng)時，已然耗盡了互聯(lián)網(wǎng)上所有質(zhì)量穩(wěn)定的英語文本庫。現(xiàn)在他們需要更多數(shù)據(jù)來訓(xùn)練自家技術(shù)的下一個版本——更多更多。
為此，OpenAI 研究人員開發(fā)出一款名為 Whisper 的語音識別工具，能夠轉(zhuǎn)錄 YouTube 視頻中的音頻以生成新的對話文本，再將其作為訓(xùn)練素材以提升 AI 系統(tǒng)的智能水平。
三名知情人士表示，部分 OpenAI 員工討論了此舉可能違反 YouTube 規(guī)則。谷歌旗下的 YouTube 明確禁止將其視頻用于“”于該平臺以外的應(yīng)用場景。
知情人士指出，最終 OpenAI 團隊還是轉(zhuǎn)錄了超過 100 萬小時的 YouTube 視頻。兩位知情人士表示，這支團隊包括 OpenAI 總裁 Greg Brockman，他還親自協(xié)助收集了這些視頻。整理出的文本隨后被輸入名為 GPT-4 的系統(tǒng)，這也是目前得到廣泛認可的最強

原文鏈接：沒有數(shù)據(jù)訓(xùn)練大模型？OpenAI 總裁帶隊轉(zhuǎn)錄YouTube視頻，谷歌、Meta 也想盡數(shù)據(jù)收割套路