原標題:最新研究揭示AI數據之殤:科技巨頭壟斷權力,「西方中心」數據加劇模型偏見
文章來源:新智元
內容字數:4713字
AI 數據來源的隱憂:權力集中與偏見放大
近年來,人工智能(AI)領域取得了令人矚目的進展,大型語言模型(LLM)和智能體(Agent)技術日趨成熟。然而,支撐AI發展的基礎——數據收集——卻存在著明顯的滯后和規范不足。由50多名研究人員組成的“數據溯源計劃”(DPI)旨在揭示AI訓練數據的來源,并為此敲響警鐘。
1. 數據來源的演變與集中化:DPI審核了近4000個公共數據集,涵蓋全球各地的數據。早期(2010年代初),數據集來源多樣,包括百科全書、網絡、議會記錄等。但自2018年起,互聯網成為主要數據來源,數據收集方式從精細策劃轉向大規模抓取。這種變化與大模型的興起密切相關,模型性能的提升依賴于海量數據,從而導致數據來源的極度集中。
2. 科技巨頭的壟斷:研究發現,AI數據存在“壟斷”趨勢,權力逐漸集中在少數科技巨頭手中。例如,多模態AI模型(如圖像和視頻生成模型)的訓練數據中,YouTube占據了超過70%的份額,這使得谷歌等公司擁有巨大的優勢。這種數據集中不僅影響公平競爭,也引發了關于數據濫用和算法偏見的擔憂。
3. 數據集中帶來的偏差和失真:單一數據來源會導致偏差和失真。例如,YouTube上的視頻通常帶有特定目的和受眾群體,可能無法全面反映人類社會的真實面貌。這將導致AI模型輸出結果存在偏見,例如,以西方文化為中心的輸出結果。
4. 數據集的隱蔽性與許可限制:許多科技公司不公開訓練數據,原因包括保護競爭優勢和數據來源的不透明性。此外,數據集通常附加限制性許可,例如禁止商業用途,這限制了數據的廣泛應用和學術研究。
5. 數據共享協議的排他性:OpenAI和Google等公司與特定平臺達成的獨家數據共享協議加劇了數據集中和權力壟斷,形成一種“非對稱訪問”的局面,不利于學術界和小型公司。
6. 地域偏見:西方世界主導:DPI的研究還揭示了AI數據中的地域偏見。超過90%的數據來自歐洲和北美,非洲等地區的數據占比極低。這導致AI模型輸出結果可能反映西方中心主義的世界觀,忽視其他文化和語言。
7. 未來展望:DPI的研究結果強調了規范AI數據收集和使用的必要性。為了避免AI技術加劇社會不平等和偏見,需要促進數據共享、透明化和多元化,確保AI模型的公平性和公正性。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。