AIGC動態歡迎閱讀
原標題:沒有數據訓練大模型?OpenAI 總裁帶隊轉錄YouTube視頻,谷歌、Meta 也想盡數據收割套路
關鍵字:政策,數據,報告,知識產權,模型
文章來源:AI前線
內容字數:16615字
內容摘要:
作者|CadeMetz,CeciliaKang,
SheeraFrenkel,StuartA.ThompsonandNicoGrant
譯者|核子可樂
策劃|褚杏娟
2021 年底,OpenAI 開始面臨數據供應荒。
這家人工智能研究機構在開發最新 AI 系統時,已然耗盡了互聯網上所有質量穩定的英語文本庫。現在他們需要更多數據來訓練自家技術的下一個版本——更多更多。
為此,OpenAI 研究人員開發出一款名為 Whisper 的語音識別工具,能夠轉錄 YouTube 視頻中的音頻以生成新的對話文本,再將其作為訓練素材以提升 AI 系統的智能水平。
三名知情人士表示,部分 OpenAI 員工討論了此舉可能違反 YouTube 規則。谷歌旗下的 YouTube 明確禁止將其視頻用于“”于該平臺以外的應用場景。
知情人士指出,最終 OpenAI 團隊還是轉錄了超過 100 萬小時的 YouTube 視頻。兩位知情人士表示,這支團隊包括 OpenAI 總裁 Greg Brockman,他還親自協助收集了這些視頻。整理出的文本隨后被輸入名為 GPT-4 的系統,這也是目前得到廣泛認可的最強
原文鏈接:沒有數據訓練大模型?OpenAI 總裁帶隊轉錄YouTube視頻,谷歌、Meta 也想盡數據收割套路
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...