比知識(shí)蒸餾好用,田淵棟等提出連續(xù)概念混合,再度革新Transformer預(yù)訓(xùn)練框架
讓訓(xùn)練token驟減!
原標(biāo)題:比知識(shí)蒸餾好用,田淵棟等提出連續(xù)概念混合,再度革新Transformer預(yù)訓(xùn)練框架
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5522字
Meta提出新型預(yù)訓(xùn)練框架CoCoMix:超越“下一個(gè)token預(yù)測”范式
大型語言模型(LLMs)的最新進(jìn)展主要基于“下一個(gè)token預(yù)測”的范式,然而這種方法依賴于表層token,限制了模型對(duì)高級(jí)推理和長期任務(wù)的處理能力。Meta等機(jī)構(gòu)的研究者提出了一種新穎的預(yù)訓(xùn)練框架:連續(xù)概念混合(CoCoMix),旨在超越這一局限。
1. CoCoMix的核心思想
CoCoMix將離散的“下一個(gè)token預(yù)測”與連續(xù)概念相結(jié)合。它利用預(yù)訓(xùn)練的稀疏自編碼器(SAE)提取語義概念,并根據(jù)歸因分?jǐn)?shù)選擇對(duì)模型輸出影響最大的概念。模型通過交叉熵?fù)p失預(yù)測這些概念,并將預(yù)測的概念壓縮成單個(gè)連續(xù)概念,與token隱藏表示交錯(cuò)混合到模型的隱藏狀態(tài)中,直接參與“下一個(gè)token預(yù)測”。
2. CoCoMix的有效性驗(yàn)證
研究者在多個(gè)語言建模基準(zhǔn)和不同規(guī)模的模型上評(píng)估了CoCoMix的有效性,主要從以下幾個(gè)方面進(jìn)行驗(yàn)證:
- 性能提升:CoCoMix在各種規(guī)模的模型上都顯著提高了下游任務(wù)的性能。例如,在1.38B規(guī)模的模型上,CoCoMix在減少21.5%訓(xùn)練token的情況下,實(shí)現(xiàn)了與標(biāo)準(zhǔn)“下一個(gè)token預(yù)測”相當(dāng)?shù)男阅埽宫F(xiàn)了高采樣效率。
- 弱到強(qiáng)監(jiān)督場景改進(jìn):CoCoMix在弱到強(qiáng)監(jiān)督的場景中表現(xiàn)出色,從小模型中提取的概念可以有效地指導(dǎo)大模型的訓(xùn)練。
- 可解釋性和可操縱性:CoCoMix具有良好的可解釋性和可操縱性。通過分析模型預(yù)測的概念,可以了解模型的關(guān)注點(diǎn);通過調(diào)整概念的激活強(qiáng)度,可以控制模型的輸出。
- 組件有效性分析:研究者對(duì)CoCoMix的各個(gè)組件進(jìn)行了詳細(xì)分析,驗(yàn)證了歸因分?jǐn)?shù)、概念預(yù)測、壓縮權(quán)重等設(shè)計(jì)選擇的有效性。
3. CoCoMix與其他方法的比較
研究者將CoCoMix與知識(shí)蒸餾(KD)方法進(jìn)行了比較。結(jié)果表明,CoCoMix在弱到強(qiáng)監(jiān)督的場景中,特別是當(dāng)學(xué)生模型能力超過教師模型時(shí),性能顯著優(yōu)于KD。這是因?yàn)镃oCoMix選擇性地利用有用的概念,避免了KD中可能出現(xiàn)的噪聲或次優(yōu)知識(shí)的影響。
4. 總結(jié)
CoCoMix通過結(jié)合概念學(xué)習(xí)和交錯(cuò)技術(shù),有效地提升了LLM預(yù)訓(xùn)練的效率和性能。它不僅在性能上超越了傳統(tǒng)的“下一個(gè)token預(yù)測”方法,還在可解釋性和可操縱性方面展現(xiàn)了優(yōu)勢,為LLM預(yù)訓(xùn)練提供了新的方向。這項(xiàng)工作也進(jìn)一步鞏固了Meta在大型概念模型研究方面的領(lǐng)先地位。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)