AIGC動態歡迎閱讀
原標題:科技巨頭如何為了發展人工智能而采取捷徑收集數據
關鍵字:政策,數據,知識產權,人工智能,模型
文章來源:AI范兒
內容字數:14566字
內容摘要:
點擊上方藍字關注我們“科技巨頭正在大規模收集用戶數據,用于訓練人工智能系統。這些公司利用用戶的網絡活動、位置信息和其他個人數據,開發出更加智能和個性化的產品。這種做法引發了隱私和數據安全的擔憂,需要和公眾加強監管和保護措施。到了 2021 年底,OpenAI 面臨數據短缺的問題。在開發最新 AI系統的過程中,他們已經耗盡了互聯網上所有可靠的英文文本資源。為了訓練技術的下一個版本,他們需要更多的數據,而且是大量的數據。
因此,OpenAI 研究人員創造了 Whisper,這個工具能夠轉錄 YouTube 視頻的音頻,產生新的對話文本,以提升 AI系統的智能水平。
一些知情人士透露,OpenAI 的員工討論過這樣的做法可能會違反 YouTube 的規定。YouTube 作為 Google 的一部分,禁止將其視頻用于于該視頻平臺的應用。
最終,OpenAI 團隊轉錄了超過一百萬小時的 YouTube 視頻。據說,包括 OpenAI 總裁 Greg Brockman 在內的小組成員親自參與了視頻的收集工作。這些文本隨后被輸入到名為 GPT-4 的系統中,該系統被廣泛認為是全球最強大的
聯系作者
文章來源:AI范兒
作者微信:AI_Insights
作者簡介:AI領域四大媒體之一。 智能未來,始于Prompt!
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...