院士領(lǐng)銜推出大模型的第3種記憶:比參數(shù)存儲(chǔ)和RAG都便宜,2.4B模型越級(jí)打13B
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:院士領(lǐng)銜推出大模型的第3種記憶:比參數(shù)存儲(chǔ)和RAG都便宜,2.4B模型越級(jí)打13B
關(guān)鍵字:記憶,模型,知識(shí),報(bào)告,參數(shù)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI給大模型加上第三種記憶格式,把寶貴的參數(shù)從死記硬背知識(shí)中解放出來(lái)!
中科院院士鄂維南領(lǐng)銜,上海算法創(chuàng)新研究院等團(tuán)隊(duì)推出Memory3,比在參數(shù)中存儲(chǔ)知識(shí)以及RAG成本都更低,同時(shí)保持比RAG更高的解碼速度。
在實(shí)驗(yàn)中,僅有2.4B參數(shù)的Memory3模型不僅打敗了許多7B-13B的模型,在專業(yè)領(lǐng)域任務(wù)如醫(yī)學(xué)上的表現(xiàn)也超過(guò)了傳統(tǒng)的RAG方法,同時(shí)推理速度更快,“幻覺(jué)”問(wèn)題也更少。
目前相關(guān)論文已上傳到arXiv,并引起學(xué)術(shù)界關(guān)注。
知識(shí)按使用頻率分類這一方法受人腦記憶原理啟發(fā),于存儲(chǔ)在模型參數(shù)中的隱性知識(shí)和推理時(shí)的短期工作工作記憶,給大模型添加了顯式記憶。
具體來(lái)說(shuō),人類的記憶大致可以分為三部分:
顯式記憶:可以主動(dòng)回憶的長(zhǎng)期記憶,比如讀過(guò)的文章。獲取顯式記憶很容易,但提取時(shí)需要一定的回憶過(guò)程。
隱式記憶:無(wú)意識(shí)使用的長(zhǎng)期記憶,比如騎自行車的技能。獲取隱式記憶需要大量重復(fù)練習(xí),但使用時(shí)毫不費(fèi)力。
外部信息:存在大腦之外的信息,如考試時(shí)的備考資料。獲取和使用都很輕松,但遇到新問(wèn)題時(shí)作用有限。
可以看出,三種記憶形式在獲取和使用的效率上形
原文鏈接:院士領(lǐng)銜推出大模型的第3種記憶:比參數(shù)存儲(chǔ)和RAG都便宜,2.4B模型越級(jí)打13B
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破