AIGC動態歡迎閱讀
原標題:中科大聯合華為諾亞提出Entropy Law,揭秘大模型性能、數據壓縮率以及訓練損失關系
關鍵字:華為,數據,模型,壓縮率,樣本
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本工作由中科大認知智能全國重點實驗室 IEEE Fellow 陳恩紅團隊與華為諾亞方舟實驗室完成。陳恩紅教授團隊深耕數據挖掘、機器學習領域,在頂級期刊與會議上發表多篇論文,谷歌學術論文引用超兩萬次。諾亞方舟實驗室是華為公司從事人工智能基礎研究的實驗室,秉持理論研究與應用創新并重的理念,致力于推動人工智能領域的技術創新和發展。
數據是大語言模型(LLMs)成功的基石,但并非所有數據都有益于模型學習。直覺上,高質量的樣本在教授 LLM 上預期會有更好的效率。因此,現有方法通常專注于基于質量的數據選擇。然而,這些方法中的大多數地評估不同的數據樣本,忽略了樣本之間復雜的組合效應。如圖 1 所示,即使每個樣本質量完美,由于它們的互信息冗余或不一致性,它們的組合可能仍
原文鏈接:中科大聯合華為諾亞提出Entropy Law,揭秘大模型性能、數據壓縮率以及訓練損失關系
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...