<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        比知識(shí)蒸餾好用,田淵棟等提出連續(xù)概念混合,再度革新Transformer預(yù)訓(xùn)練框架

        讓訓(xùn)練token驟減!

        比知識(shí)蒸餾好用,田淵棟等提出連續(xù)概念混合,再度革新Transformer預(yù)訓(xùn)練框架

        原標(biāo)題:比知識(shí)蒸餾好用,田淵棟等提出連續(xù)概念混合,再度革新Transformer預(yù)訓(xùn)練框架
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):5522字

        Meta提出新型預(yù)訓(xùn)練框架CoCoMix:超越“下一個(gè)token預(yù)測”范式

        大型語言模型(LLMs)的最新進(jìn)展主要基于“下一個(gè)token預(yù)測”的范式,然而這種方法依賴于表層token,限制了模型對(duì)高級(jí)推理和長期任務(wù)的處理能力。Meta等機(jī)構(gòu)的研究者提出了一種新穎的預(yù)訓(xùn)練框架:連續(xù)概念混合(CoCoMix),旨在超越這一局限。

        1. CoCoMix的核心思想

        CoCoMix將離散的“下一個(gè)token預(yù)測”與連續(xù)概念相結(jié)合。它利用預(yù)訓(xùn)練的稀疏自編碼器(SAE)提取語義概念,并根據(jù)歸因分?jǐn)?shù)選擇對(duì)模型輸出影響最大的概念。模型通過交叉熵?fù)p失預(yù)測這些概念,并將預(yù)測的概念壓縮成單個(gè)連續(xù)概念,與token隱藏表示交錯(cuò)混合到模型的隱藏狀態(tài)中,直接參與“下一個(gè)token預(yù)測”。

        2. CoCoMix的有效性驗(yàn)證

        研究者在多個(gè)語言建模基準(zhǔn)和不同規(guī)模的模型上評(píng)估了CoCoMix的有效性,主要從以下幾個(gè)方面進(jìn)行驗(yàn)證:

        1. 性能提升:CoCoMix在各種規(guī)模的模型上都顯著提高了下游任務(wù)的性能。例如,在1.38B規(guī)模的模型上,CoCoMix在減少21.5%訓(xùn)練token的情況下,實(shí)現(xiàn)了與標(biāo)準(zhǔn)“下一個(gè)token預(yù)測”相當(dāng)?shù)男阅埽宫F(xiàn)了高采樣效率。
        2. 弱到強(qiáng)監(jiān)督場景改進(jìn):CoCoMix在弱到強(qiáng)監(jiān)督的場景中表現(xiàn)出色,從小模型中提取的概念可以有效地指導(dǎo)大模型的訓(xùn)練。
        3. 可解釋性和可操縱性:CoCoMix具有良好的可解釋性和可操縱性。通過分析模型預(yù)測的概念,可以了解模型的關(guān)注點(diǎn);通過調(diào)整概念的激活強(qiáng)度,可以控制模型的輸出。
        4. 組件有效性分析:研究者對(duì)CoCoMix的各個(gè)組件進(jìn)行了詳細(xì)分析,驗(yàn)證了歸因分?jǐn)?shù)、概念預(yù)測、壓縮權(quán)重等設(shè)計(jì)選擇的有效性。

        3. CoCoMix與其他方法的比較

        研究者將CoCoMix與知識(shí)蒸餾(KD)方法進(jìn)行了比較。結(jié)果表明,CoCoMix在弱到強(qiáng)監(jiān)督的場景中,特別是當(dāng)學(xué)生模型能力超過教師模型時(shí),性能顯著優(yōu)于KD。這是因?yàn)镃oCoMix選擇性地利用有用的概念,避免了KD中可能出現(xiàn)的噪聲或次優(yōu)知識(shí)的影響。

        4. 總結(jié)

        CoCoMix通過結(jié)合概念學(xué)習(xí)和交錯(cuò)技術(shù),有效地提升了LLM預(yù)訓(xùn)練的效率和性能。它不僅在性能上超越了傳統(tǒng)的“下一個(gè)token預(yù)測”方法,還在可解釋性和可操縱性方面展現(xiàn)了優(yōu)勢,為LLM預(yù)訓(xùn)練提供了新的方向。這項(xiàng)工作也進(jìn)一步鞏固了Meta在大型概念模型研究方面的領(lǐng)先地位。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 永久免费无码网站在线观看| 四虎免费影院4hu永久免费| 亚洲色大成网站www永久一区 | 亚洲综合无码精品一区二区三区 | 国产午夜亚洲精品国产| 国产91免费视频| 免费无码成人AV片在线在线播放| 亚洲人成在线免费观看| 手机在线看永久av片免费| 中文字幕亚洲男人的天堂网络| 免费一本色道久久一区| 亚洲色大18成人网站WWW在线播放| 成人五级毛片免费播放| 亚洲精品色播一区二区| 日韩亚洲国产综合久久久| 亚洲天天做日日做天天欢毛片| 99在线观看视频免费| 亚洲一级毛片视频| 午夜视频在线在免费| 一级做受视频免费是看美女| 岛国av无码免费无禁网站| 亚洲国产成人久久精品大牛影视| 免费一级毛片正在播放| 成人无码视频97免费| 亚洲视频一区二区在线观看| 免费无码又黄又爽又刺激| 欧洲美女大片免费播放器视频| 亚洲成AV人片在线播放无码| 免费不卡视频一卡二卡| 黄色一级视频免费观看| 国产18禁黄网站免费观看| 国产精品极品美女自在线观看免费 | 亚洲神级电影国语版| 国产精品免费看久久久| 亚洲一区二区三区在线观看精品中文 | 69堂人成无码免费视频果冻传媒| 亚洲av成人中文无码专区| 久久久久久久综合日本亚洲| AV免费网址在线观看| 中文字幕在线免费视频| 伊人久久五月丁香综合中文亚洲 |