中科大聯(lián)合華為諾亞提出Entropy Law，揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：中科大聯(lián)合華為諾亞提出Entropy Law，揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系
關(guān)鍵字：華為,數(shù)據(jù),模型,壓縮率,樣本
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本工作由中科大認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室 IEEE Fellow 陳恩紅團(tuán)隊(duì)與華為諾亞方舟實(shí)驗(yàn)室完成。陳恩紅教授團(tuán)隊(duì)深耕數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)領(lǐng)域，在頂級(jí)期刊與會(huì)議上發(fā)表多篇論文，谷歌學(xué)術(shù)論文引用超兩萬(wàn)次。諾亞方舟實(shí)驗(yàn)室是華為公司從事人工智能基礎(chǔ)研究的實(shí)驗(yàn)室，秉持理論研究與應(yīng)用創(chuàng)新并重的理念，致力于推動(dòng)人工智能領(lǐng)域的技術(shù)創(chuàng)新和發(fā)展。
數(shù)據(jù)是大語(yǔ)言模型（LLMs）成功的基石，但并非所有數(shù)據(jù)都有益于模型學(xué)習(xí)。直覺(jué)上，高質(zhì)量的樣本在教授 LLM 上預(yù)期會(huì)有更好的效率。因此，現(xiàn)有方法通常專(zhuān)注于基于質(zhì)量的數(shù)據(jù)選擇。然而，這些方法中的大多數(shù)地評(píng)估不同的數(shù)據(jù)樣本，忽略了樣本之間復(fù)雜的組合效應(yīng)。如圖 1 所示，即使每個(gè)樣本質(zhì)量完美，由于它們的互信息冗余或不一致性，它們的組合可能仍

原文鏈接：中科大聯(lián)合華為諾亞提出Entropy Law，揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系