AIGC動態歡迎閱讀
原標題:清華、智譜AI團隊:Loss才是涌現的關鍵,而非模型參數|論文分享
關鍵字:模型,報告,性能,指標,能力
文章來源:人工智能學家
內容字數:4118字
內容摘要:
來源:GLM大模型
作者:GLM技術團隊
大語言模型中的涌現能力(Emergent Ability)研究指出,伴隨著模型參數的增大會出現能力涌現。但過去的觀察卻發現:1)小模型也可以在涌現出的能力上有較高的表現;2)用于衡量這些能力的指標存在非連續性。
為了更深刻地理解這個問題,我們訓練了30多個不同模型參數和數據規模的語言模型,并評估了他們在 12 個英文和中文數據集上的表現。我們觀察到,涌現現象與 pre-training loss 有比較密切的關系。
基于這些觀察,我們認為應當從 Pre-training Loss 的角度重新定義“涌現能力”:只有當 Pre-training Loss 低于某個閾值時,模型才具有該能力。論文鏈接:https://arxiv.org/abs/2403.15796
1. 數據集
我們研究了語言模型在12個下游任務上的表現與Pre-training Loss之間的關系。實驗中評估的英文和中文數據集見下表。2. Pre-training Loss vs 性能
在第一個實驗中,我們訓練了三個參數為1.5B、6B和32B的模型。我們評估了訓練過程中 chec
原文鏈接:清華、智譜AI團隊:Loss才是涌現的關鍵,而非模型參數|論文分享
聯系作者
文章來源:人工智能學家
作者微信:AItists
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...