比知識(shí)蒸餾好用，田淵棟等提出連續(xù)概念混合，再度革新Transformer預(yù)訓(xùn)練框架

讓訓(xùn)練token驟減！

原標(biāo)題：比知識(shí)蒸餾好用，田淵棟等提出連續(xù)概念混合，再度革新Transformer預(yù)訓(xùn)練框架
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5522字

Meta提出新型預(yù)訓(xùn)練框架CoCoMix：超越“下一個(gè)token預(yù)測”范式

大型語言模型（LLMs）的最新進(jìn)展主要基于“下一個(gè)token預(yù)測”的范式，然而這種方法依賴于表層token，限制了模型對(duì)高級(jí)推理和長期任務(wù)的處理能力。Meta等機(jī)構(gòu)的研究者提出了一種新穎的預(yù)訓(xùn)練框架：連續(xù)概念混合（CoCoMix），旨在超越這一局限。

1. CoCoMix的核心思想

CoCoMix將離散的“下一個(gè)token預(yù)測”與連續(xù)概念相結(jié)合。它利用預(yù)訓(xùn)練的稀疏自編碼器（SAE）提取語義概念，并根據(jù)歸因分?jǐn)?shù)選擇對(duì)模型輸出影響最大的概念。模型通過交叉熵?fù)p失預(yù)測這些概念，并將預(yù)測的概念壓縮成單個(gè)連續(xù)概念，與token隱藏表示交錯(cuò)混合到模型的隱藏狀態(tài)中，直接參與“下一個(gè)token預(yù)測”。

2. CoCoMix的有效性驗(yàn)證

研究者在多個(gè)語言建模基準(zhǔn)和不同規(guī)模的模型上評(píng)估了CoCoMix的有效性，主要從以下幾個(gè)方面進(jìn)行驗(yàn)證：

性能提升：CoCoMix在各種規(guī)模的模型上都顯著提高了下游任務(wù)的性能。例如，在1.38B規(guī)模的模型上，CoCoMix在減少21.5%訓(xùn)練token的情況下，實(shí)現(xiàn)了與標(biāo)準(zhǔn)“下一個(gè)token預(yù)測”相當(dāng)?shù)男阅埽宫F(xiàn)了高采樣效率。
弱到強(qiáng)監(jiān)督場景改進(jìn)：CoCoMix在弱到強(qiáng)監(jiān)督的場景中表現(xiàn)出色，從小模型中提取的概念可以有效地指導(dǎo)大模型的訓(xùn)練。
可解釋性和可操縱性：CoCoMix具有良好的可解釋性和可操縱性。通過分析模型預(yù)測的概念，可以了解模型的關(guān)注點(diǎn)；通過調(diào)整概念的激活強(qiáng)度，可以控制模型的輸出。
組件有效性分析：研究者對(duì)CoCoMix的各個(gè)組件進(jìn)行了詳細(xì)分析，驗(yàn)證了歸因分?jǐn)?shù)、概念預(yù)測、壓縮權(quán)重等設(shè)計(jì)選擇的有效性。

3. CoCoMix與其他方法的比較

研究者將CoCoMix與知識(shí)蒸餾（KD）方法進(jìn)行了比較。結(jié)果表明，CoCoMix在弱到強(qiáng)監(jiān)督的場景中，特別是當(dāng)學(xué)生模型能力超過教師模型時(shí)，性能顯著優(yōu)于KD。這是因?yàn)镃oCoMix選擇性地利用有用的概念，避免了KD中可能出現(xiàn)的噪聲或次優(yōu)知識(shí)的影響。

4. 總結(jié)

CoCoMix通過結(jié)合概念學(xué)習(xí)和交錯(cuò)技術(shù)，有效地提升了LLM預(yù)訓(xùn)練的效率和性能。它不僅在性能上超越了傳統(tǒng)的“下一個(gè)token預(yù)測”方法，還在可解釋性和可操縱性方面展現(xiàn)了優(yōu)勢，為LLM預(yù)訓(xùn)練提供了新的方向。這項(xiàng)工作也進(jìn)一步鞏固了Meta在大型概念模型研究方面的領(lǐng)先地位。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# Transformer預(yù)訓(xùn)練 # 模型壓縮 # 知識(shí)蒸餾 # 連續(xù)概念混合 # 高效預(yù)訓(xùn)練

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

比知識(shí)蒸餾好用，田淵棟等提出連續(xù)概念混合，再度革新Transformer預(yù)訓(xùn)練框架

讓訓(xùn)練token驟減！

Meta提出新型預(yù)訓(xùn)練框架CoCoMix：超越“下一個(gè)token預(yù)測”范式

1. CoCoMix的核心思想

2. CoCoMix的有效性驗(yàn)證

3. CoCoMix與其他方法的比較

4. 總結(jié)

聯(lián)系作者

當(dāng)微信杠上 DeepSeek：這波操作讓 AI 圈徹底炸鍋了！

新版GPT-4o登頂大模型榜首！意識(shí)覺醒瘋狂「暴走」，竟要與人類開戰(zhàn)

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？