中科大聯(lián)合華為諾亞提出Entropy Law,揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:中科大聯(lián)合華為諾亞提出Entropy Law,揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系
關(guān)鍵字:華為,數(shù)據(jù),模型,壓縮率,樣本
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本工作由中科大認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室 IEEE Fellow 陳恩紅團(tuán)隊(duì)與華為諾亞方舟實(shí)驗(yàn)室完成。陳恩紅教授團(tuán)隊(duì)深耕數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)領(lǐng)域,在頂級(jí)期刊與會(huì)議上發(fā)表多篇論文,谷歌學(xué)術(shù)論文引用超兩萬(wàn)次。諾亞方舟實(shí)驗(yàn)室是華為公司從事人工智能基礎(chǔ)研究的實(shí)驗(yàn)室,秉持理論研究與應(yīng)用創(chuàng)新并重的理念,致力于推動(dòng)人工智能領(lǐng)域的技術(shù)創(chuàng)新和發(fā)展。
數(shù)據(jù)是大語(yǔ)言模型(LLMs)成功的基石,但并非所有數(shù)據(jù)都有益于模型學(xué)習(xí)。直覺(jué)上,高質(zhì)量的樣本在教授 LLM 上預(yù)期會(huì)有更好的效率。因此,現(xiàn)有方法通常專(zhuān)注于基于質(zhì)量的數(shù)據(jù)選擇。然而,這些方法中的大多數(shù)地評(píng)估不同的數(shù)據(jù)樣本,忽略了樣本之間復(fù)雜的組合效應(yīng)。如圖 1 所示,即使每個(gè)樣本質(zhì)量完美,由于它們的互信息冗余或不一致性,它們的組合可能仍
原文鏈接:中科大聯(lián)合華為諾亞提出Entropy Law,揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: