何愷明重提十年之爭——模型表現好是源于能力提升還是捕獲數據集偏置？

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：何愷明重提十年之爭——模型表現好是源于能力提升還是捕獲數據集偏置？
關鍵字：數據,模型,騰訊,報告,任務
文章來源：算法邦
內容字數：6508字

內容摘要：

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會，阿里巴巴通義千問大模型技術負責人周暢，「清華系Sora」生數科技CEO唐家渝，云天勵飛“云天天書”大模型技術負責人余曉填，Open-Sora開發團隊潞晨科技創始人尤洋，鴻博股份副總裁、英博數科CEO周韡韡，優必選研究院執行院長焦繼超，科大訊飛人形機器人首席科學家季超，騰訊研究科學家張馳等40+位嘉賓已確認帶來演講和報告，歡迎報名。本文是算法邦公眾號為大家分享的第4篇「大咖之聲」文章。想象一下，如果把世界上所有的圖片都找來，給它們放到一塊巨大的空地上，其中內容相似的圖片放得近一些，內容不相似的圖片放得遠一些（類比向量嵌入）。然后，我隨機地向這片空地撒一把豆子，那么這把豆子怎么才能盡量撒得均勻？在真實世界收集數據集的過程就像是在撒豆子，把被撒到豆子的圖片收集起來。簡單來說，豆子撒不勻，數據集就有偏置。
論文標題：
A Decade’s Battle on Dataset Bias: Are We There Yet?
文章鏈接：
https://arxiv.org/pdf/2403.08632.pdf
數據集偏置之

原文鏈接：何愷明重提十年之爭——模型表現好是源于能力提升還是捕獲數據集偏置？