AIGC動態歡迎閱讀
原標題:ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練
關鍵字:數據,模型,對比,強度,樣本
文章來源:機器之心
內容字數:7733字
內容摘要:
機器之心專欄
機器之心編輯部隨著生成模型(如 ChatGPT、擴散模型)飛速發展,一方面,生成數據質量越來越高,到了以假亂真的程度;另一方面,隨著模型越來越大,也使得人類世界的真實數據即將枯竭。
面對這一處境,一個近期的研究熱度是,能否利用生成模型生成的假數據來輔助學習?學界對此也產生了許多爭論:到底是可以左腳踩右腳(bootsrap)地實現 weak-to-strong 的不斷提升,還是像雞生蛋、蛋生雞一樣,只不過是徒勞無功?
在近期 ICLR 2024 工作中,北大王奕森團隊針對這一「數據擴充」(Data Inflation)問題展開了深入研究。
他們針對對比學習(如 SimCLR、DINO、CLIP)這一常見的自監督學習場景,從理論和實驗兩方面分析了生成數據對于表示學習能力的影響。為了控制變量,他們保證生成模型和表示學習都只能使用同一個(無監督)真實數據集進行訓練,避免了擴充數據本身帶來的收益。論文題目:Do Generated Data Always Help Contrastive Learning?
論文地址:https://arxiv.org/abs/2403.12448
原文鏈接:ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...