華為最新研究挑戰(zhàn)Scaling Law
AIGC動態(tài)歡迎閱讀
原標題:華為最新研究挑戰(zhàn)Scaling Law
關(guān)鍵字:函數(shù),模型,華為,能量,記憶
文章來源:量子位
內(nèi)容字數(shù):4649字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI“Scaling Law不是萬金油”——關(guān)于大模型表現(xiàn),華為又提出了新理論。
他們發(fā)現(xiàn),一些現(xiàn)象無法用Scaling Law來解釋,進而開展了更加深入的研究。
根據(jù)實驗結(jié)果,他們認為Transformer模型的成績,與記憶力高度相關(guān)。
具體來說,他們發(fā)現(xiàn)Scaling Law的缺陷主要有這兩種表現(xiàn):
一是一些小模型的表現(xiàn)和大一些的模型相當(dāng)甚至更好,如參數(shù)量只有2B的MiniCPM,表現(xiàn)與13B的Llama接近。
二是在訓(xùn)練大模型時,如果過度訓(xùn)練,模型表現(xiàn)不會繼續(xù)增加,反而呈現(xiàn)出了U型曲線。
經(jīng)過深入研究和建模,團隊結(jié)合了Hopfield聯(lián)想記憶模型,提出了大模型表現(xiàn)的新解釋。
有人評價說,聯(lián)想記憶是人類所使用的一種記憶方法,現(xiàn)在發(fā)現(xiàn)大模型也會用,可以說是AI理解力的躍遷。
不過需要指出的是,這項研究雖有挑戰(zhàn)之意,但并非對Scaling Law的否定,而是對其局限性的客觀思考和重要補充,同時作者對前者的貢獻也做出了肯定。
構(gòu)建全新能量函數(shù)作者首先進行了假設(shè),提出了新的能量函數(shù),并根據(jù)Transformer模型的分層結(jié)構(gòu),設(shè)計了全局能量函
原文鏈接:華為最新研究挑戰(zhàn)Scaling Law
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破