AIGC動態歡迎閱讀
原標題:何愷明重提十年之爭——模型表現好是源于能力提升還是捕獲數據集偏置?
關鍵字:數據,模型,騰訊,報告,任務
文章來源:算法邦
內容字數:6508字
內容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術負責人周暢,「清華系Sora」生數科技CEO唐家渝,云天勵飛“云天天書”大模型技術負責人余曉填,Open-Sora開發團隊潞晨科技創始人尤洋,鴻博股份副總裁、英博數科CEO周韡韡,優必選研究院執行院長焦繼超,科大訊飛人形機器人首席科學家季超,騰訊研究科學家張馳等40+位嘉賓已確認帶來演講和報告,歡迎報名。本文是算法邦公眾號為大家分享的第4篇「大咖之聲」文章。想象一下,如果把世界上所有的圖片都找來,給它們放到一塊巨大的空地上,其中內容相似的圖片放得近一些,內容不相似的圖片放得遠一些(類比向量嵌入)。然后,我隨機地向這片空地撒一把豆子,那么這把豆子怎么才能盡量撒得均勻?在真實世界收集數據集的過程就像是在撒豆子,把被撒到豆子的圖片收集起來。簡單來說,豆子撒不勻,數據集就有偏置。
論文標題:
A Decade’s Battle on Dataset Bias: Are We There Yet?
文章鏈接:
https://arxiv.org/pdf/2403.08632.pdf
數據集偏置之
原文鏈接:何愷明重提十年之爭——模型表現好是源于能力提升還是捕獲數據集偏置?
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...