何愷明劉壯新作：消除數據集偏差的十年之戰

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：何愷明劉壯新作：消除數據集偏差的十年之戰
關鍵字：數據,騰訊,神經網絡,偏差,準確率
文章來源：量子位
內容字數：3937字

內容摘要：

編輯部發自凹非寺量子位 | 公眾號 QbitAIMIT新晉副教授何愷明，新作新鮮出爐：
瞄準一個橫亙在AI發展之路上十年之久的問題：數據集偏差。
該研究為何愷明在Meta期間與劉壯合作完成，他們在論文中指出：
盡管過去十多年里業界為構建更大、更多樣化、更全面、偏差更小的數據集做了很多努力，但現代神經網絡似乎越來越善于”識破”并利用這些數據集中潛藏的偏差。
這不禁讓人懷疑：我們在消除數據集偏差的戰斗中，真的取得了勝利嗎？
數據集偏差之戰，在2011年由知名學者Antonio Torralba和Alyosha Efros提出——
Alyosha Efros正是Sora兩位一作博士小哥（Tim Brooks和William Peebles）的博士導師，而Antonio Torralba也在本科期間指導過Peebles。
當時他們發現，機器學習模型很容易“過擬合”到特定的數據集上，導致在其他數據集上表現不佳。
十多年過去了，盡管我們有了更大、更多樣化的數據集，如ImageNet、YFCC100M、CC12M等，但這個問題似乎并沒有得到根本解決。
反而，隨著神經網絡變得越來越強大，它們“挖掘

原文鏈接：何愷明劉壯新作：消除數據集偏差的十年之戰