科技巨頭如何為了發展人工智能而采取捷徑收集數據

AIGC動態2年前 (2024)發布 AI范兒

AIGC動態歡迎閱讀

原標題：科技巨頭如何為了發展人工智能而采取捷徑收集數據
關鍵字：政策,數據,知識產權,人工智能,模型
文章來源：AI范兒
內容字數：14566字

內容摘要：

點擊上方藍字關注我們“科技巨頭正在大規模收集用戶數據,用于訓練人工智能系統。這些公司利用用戶的網絡活動、位置信息和其他個人數據,開發出更加智能和個性化的產品。這種做法引發了隱私和數據安全的擔憂,需要和公眾加強監管和保護措施。到了 2021 年底，OpenAI 面臨數據短缺的問題。在開發最新 AI系統的過程中，他們已經耗盡了互聯網上所有可靠的英文文本資源。為了訓練技術的下一個版本，他們需要更多的數據，而且是大量的數據。
因此，OpenAI 研究人員創造了 Whisper，這個工具能夠轉錄 YouTube 視頻的音頻，產生新的對話文本，以提升 AI系統的智能水平。
一些知情人士透露，OpenAI 的員工討論過這樣的做法可能會違反 YouTube 的規定。YouTube 作為 Google 的一部分，禁止將其視頻用于于該視頻平臺的應用。
最終，OpenAI 團隊轉錄了超過一百萬小時的 YouTube 視頻。據說，包括 OpenAI 總裁 Greg Brockman 在內的小組成員親自參與了視頻的收集工作。這些文本隨后被輸入到名為 GPT-4 的系統中，該系統被廣泛認為是全球最強大的

原文鏈接：科技巨頭如何為了發展人工智能而采取捷徑收集數據