<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源

        AIGC動態(tài)6個月前發(fā)布 新智元
        511 0 0

        LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源

        AIGC動態(tài)歡迎閱讀

        原標(biāo)題:LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源
        關(guān)鍵字:神經(jīng)元,模型,算術(shù),啟發(fā)式,算法
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):0字

        內(nèi)容摘要:


        新智元報道編輯:peter東 喬楊
        【新智元導(dǎo)讀】大模型在數(shù)學(xué)問題上的表現(xiàn)不佳,原因在于采取啟發(fā)式算法進行數(shù)算的,通過定位到多層感知機(MLP)中的單個神經(jīng)元,可以對進行數(shù)算的具體過程進行解釋。由于缺少對運行邏輯的解釋,大模型一向被人稱為「黑箱」,但近來的不少研究已能夠在單個神經(jīng)元層面上解釋大模型的運行機制。
        例如Claude在2023年發(fā)表的一項研究,將大模型中大約500個神經(jīng)元分解成約4000個可解釋特征。
        而10月28日的一項研究,以算術(shù)推理作為典型任務(wù),借鑒類似的研究方法,確定了大模型中的一個模型子集,能解釋模型大部分的基本算術(shù)邏輯行為。
        論文地址:https://arxiv.org/abs/2410.21272
        該研究首先定位了Llama3-8B/70B, Pythia-6.9B及GPT-J四個模型中負(fù)責(zé)算術(shù)計算的模型子集。
        如圖1所示,少數(shù)注意力頭對大模型面對算術(shù)問題的正確率有顯著影響。第一個 MLP(多層感知機) 明顯影響操作數(shù)和操作符位置,而中間層和后期層的 MLP 將token信息投影到最后位置,提升正確答案的出現(xiàn)概率。
        圖1:Llama3-8B中發(fā)現(xiàn)算術(shù)相


        原文鏈接:LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源

        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 香蕉视频免费在线| 色片在线免费观看| 亚洲无圣光一区二区| 精品久久久久久久免费人妻 | 亚洲伊人久久大香线蕉AV| 四只虎免费永久观看| 免费国产黄网站在线观看| 亚洲人成网站在线在线观看| 国产午夜亚洲不卡| 久久精品无码一区二区三区免费| 免费国产污网站在线观看不要卡| 亚洲av日韩av激情亚洲| 啊v在线免费观看| 国产91色综合久久免费| fc2成年免费共享视频网站| 亚洲an日韩专区在线| 亚洲日本va在线视频观看| 免费黄色小视频网站| 日韩精品内射视频免费观看 | 亚洲香蕉免费有线视频| 国产高清视频免费在线观看| 337p日本欧洲亚洲大胆艺术| 亚洲国产精品自产在线播放| 91视频国产免费| 日韩精品免费在线视频| 免费国产va在线观看| 亚洲精品无码专区久久| 久久精品亚洲精品国产色婷 | 亚洲中文字幕无码日韩| 热久久精品免费视频| 精品无码人妻一区二区免费蜜桃| kk4kk免费视频毛片| 亚洲精品无码成人片久久不卡| 亚洲视频手机在线| 国产日韩亚洲大尺度高清| 亚洲日韩国产成网在线观看| 免费无码又爽又高潮视频 | 最近中文字幕无吗免费高清| 一级毛片免费毛片一级毛片免费| 一级毛片成人免费看a| 亚洲欧洲国产综合AV无码久久|