AIGC動態歡迎閱讀
原標題:何愷明劉壯新作:消除數據集偏差的十年之戰
關鍵字:數據,騰訊,神經網絡,偏差,準確率
文章來源:量子位
內容字數:3937字
內容摘要:
編輯部 發自 凹非寺量子位 | 公眾號 QbitAIMIT新晉副教授何愷明,新作新鮮出爐:
瞄準一個橫亙在AI發展之路上十年之久的問題:數據集偏差。
該研究為何愷明在Meta期間與劉壯合作完成,他們在論文中指出:
盡管過去十多年里業界為構建更大、更多樣化、更全面、偏差更小的數據集做了很多努力,但現代神經網絡似乎越來越善于”識破”并利用這些數據集中潛藏的偏差。
這不禁讓人懷疑:我們在消除數據集偏差的戰斗中,真的取得了勝利嗎?
數據集偏差之戰,在2011年由知名學者Antonio Torralba和Alyosha Efros提出——
Alyosha Efros正是Sora兩位一作博士小哥(Tim Brooks和William Peebles)的博士導師,而Antonio Torralba也在本科期間指導過Peebles。
當時他們發現,機器學習模型很容易“過擬合”到特定的數據集上,導致在其他數據集上表現不佳。
十多年過去了,盡管我們有了更大、更多樣化的數據集,如ImageNet、YFCC100M、CC12M等,但這個問題似乎并沒有得到根本解決。
反而,隨著神經網絡變得越來越強大,它們“挖掘
原文鏈接:何愷明劉壯新作:消除數據集偏差的十年之戰
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...