AIGC動態歡迎閱讀
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI“Scaling Law不是萬金油”——關于大模型表現,華為又提出了新理論。
他們發現,一些現象無法用Scaling Law來解釋,進而開展了更加深入的研究。
根據實驗結果,他們認為Transformer模型的成績,與記憶力高度相關。
具體來說,他們發現Scaling Law的缺陷主要有這兩種表現:
一是一些小模型的表現和大一些的模型相當甚至更好,如參數量只有2B的MiniCPM,表現與13B的Llama接近。
二是在訓練大模型時,如果過度訓練,模型表現不會繼續增加,反而呈現出了U型曲線。
經過深入研究和建模,團隊結合了Hopfield聯想記憶模型,提出了大模型表現的新解釋。
有人評價說,聯想記憶是人類所使用的一種記憶方法,現在發現大模型也會用,可以說是AI理解力的躍遷。
不過需要指出的是,這項研究雖有挑戰之意,但并非對Scaling Law的否定,而是對其局限性的客觀思考和重要補充,同時作者對前者的貢獻也做出了肯定。
構建全新能量函數作者首先進行了假設,提出了新的能量函數,并根據Transformer模型的分層結構,設計了全局能量函
原文鏈接:華為最新研究挑戰Scaling Law
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...