沒有數(shù)據(jù)訓(xùn)練大模型?OpenAI 總裁帶隊轉(zhuǎn)錄YouTube視頻,谷歌、Meta 也想盡數(shù)據(jù)收割套路
AIGC動態(tài)歡迎閱讀
原標(biāo)題:沒有數(shù)據(jù)訓(xùn)練大模型?OpenAI 總裁帶隊轉(zhuǎn)錄YouTube視頻,谷歌、Meta 也想盡數(shù)據(jù)收割套路
關(guān)鍵字:政策,數(shù)據(jù),報告,知識產(chǎn)權(quán),模型
文章來源:AI前線
內(nèi)容字?jǐn)?shù):16615字
內(nèi)容摘要:
作者|CadeMetz,CeciliaKang,
SheeraFrenkel,StuartA.ThompsonandNicoGrant
譯者|核子可樂
策劃|褚杏娟
2021 年底,OpenAI 開始面臨數(shù)據(jù)供應(yīng)荒。
這家人工智能研究機(jī)構(gòu)在開發(fā)最新 AI 系統(tǒng)時,已然耗盡了互聯(lián)網(wǎng)上所有質(zhì)量穩(wěn)定的英語文本庫。現(xiàn)在他們需要更多數(shù)據(jù)來訓(xùn)練自家技術(shù)的下一個版本——更多更多。
為此,OpenAI 研究人員開發(fā)出一款名為 Whisper 的語音識別工具,能夠轉(zhuǎn)錄 YouTube 視頻中的音頻以生成新的對話文本,再將其作為訓(xùn)練素材以提升 AI 系統(tǒng)的智能水平。
三名知情人士表示,部分 OpenAI 員工討論了此舉可能違反 YouTube 規(guī)則。谷歌旗下的 YouTube 明確禁止將其視頻用于“”于該平臺以外的應(yīng)用場景。
知情人士指出,最終 OpenAI 團(tuán)隊還是轉(zhuǎn)錄了超過 100 萬小時的 YouTube 視頻。兩位知情人士表示,這支團(tuán)隊包括 OpenAI 總裁 Greg Brockman,他還親自協(xié)助收集了這些視頻。整理出的文本隨后被輸入名為 GPT-4 的系統(tǒng),這也是目前得到廣泛認(rèn)可的最強(qiáng)
原文鏈接:沒有數(shù)據(jù)訓(xùn)練大模型?OpenAI 總裁帶隊轉(zhuǎn)錄YouTube視頻,谷歌、Meta 也想盡數(shù)據(jù)收割套路
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。