當數據之源干涸：AI研究的未來該如何開拓新天地？

原標題：Nature研究報告：AI的數據正在枯竭，研究人員該怎么辦？
文章來源：人工智能學家
內容字數：10509字

隨著人工智能（AI）技術的快速發展，特別是大型語言模型（LLMs）的崛起，研究人員正面臨數據獲取的挑戰。本文將探討數據耗盡現象、法律訴訟以及應對策略等方面的問題。

AI研究人員在過去十年中依賴于擴大神經網絡規模與數據集來提升模型能力。然而，Epoch AI的研究表明，預計到2028年，用于訓練AI模型的數據集規模將達到公共在線文本總量的上限。這意味著，AI可能會在未來四年內耗盡可用于訓練的數據，導致“數據公地”危機。

由于數據所有者（如新聞出版商）逐漸收緊內容使用規則，限制網絡抓取數據，這加劇了數據短缺的問題。長普（Longpre）指出，2023年，受限制的標記在主要數據集中僅占不到3%，而預計到2024年，這一比例將上升至20%-33%。

關于數據使用的法律訴訟正在增加，多個媒體公司以版權為由AI開發者。這些案件引發了“合理使用”的討論，如果法院支持數據提供者的經濟補償請求，將進一步限制AI開發者的數據獲取。

面對數據危機，AI開發者開始探索新的數據來源和策略。例如，利用社交媒體平臺的內容，或使用合成數據來訓練模型。OpenAI表示，合成數據的生成量巨大，但也可能導致模型的學習質量下降。

開發者們正在轉向小型、高效的LLMs，專注于特定任務。這些新模型依賴于更精煉的專用數據和改進的訓練技術，預計未來的AI發展將更多依賴于“更聰明的算法”，而非僅僅依賴于數據的數量。

AI領域面臨的數據危機迫使研究人員和開發者重新思考數據獲取和模型訓練的策略。隨著法律和技術的變化，AI的發展可能會朝著更加高效和專業化的方向演進。

聯系作者

文章來源：人工智能學家
作者微信：
作者簡介：致力成為權威的人工智能科技媒體和前沿科技研究機構

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...