LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源
AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源
關(guān)鍵字:神經(jīng)元,模型,算術(shù),啟發(fā)式,算法
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:peter東 喬楊
【新智元導(dǎo)讀】大模型在數(shù)學(xué)問題上的表現(xiàn)不佳,原因在于采取啟發(fā)式算法進行數(shù)算的,通過定位到多層感知機(MLP)中的單個神經(jīng)元,可以對進行數(shù)算的具體過程進行解釋。由于缺少對運行邏輯的解釋,大模型一向被人稱為「黑箱」,但近來的不少研究已能夠在單個神經(jīng)元層面上解釋大模型的運行機制。
例如Claude在2023年發(fā)表的一項研究,將大模型中大約500個神經(jīng)元分解成約4000個可解釋特征。
而10月28日的一項研究,以算術(shù)推理作為典型任務(wù),借鑒類似的研究方法,確定了大模型中的一個模型子集,能解釋模型大部分的基本算術(shù)邏輯行為。
論文地址:https://arxiv.org/abs/2410.21272
該研究首先定位了Llama3-8B/70B, Pythia-6.9B及GPT-J四個模型中負(fù)責(zé)算術(shù)計算的模型子集。
如圖1所示,少數(shù)注意力頭對大模型面對算術(shù)問題的正確率有顯著影響。第一個 MLP(多層感知機) 明顯影響操作數(shù)和操作符位置,而中間層和后期層的 MLP 將token信息投影到最后位置,提升正確答案的出現(xiàn)概率。
圖1:Llama3-8B中發(fā)現(xiàn)算術(shù)相
原文鏈接:LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:
相關(guān)文章
