AIGC動態歡迎閱讀
原標題:從80個模型中構建Scaling Law:華人博士生新作,思維鏈提出者力薦
關鍵字:模型,定律,能力,研究者,性能
文章來源:機器之心
內容字數:5549字
內容摘要:
機器之心報道
編輯:小舟、陳萍在 AI 領域,擴展定律(Scaling laws)是理解 LM 擴展趨勢的強大工具,其為廣大研究者提供了一個準則,該定律在理解語言模型的性能如何隨規模變化提供了一個重要指導。
但不幸的是,擴展分析在許多基準測試和后訓練研究中并不常見,因為大多數研究人員沒有計算資源來從頭開始構建擴展法則,并且開放模型的訓練尺度太少,無法進行可靠的擴展預測。
來自斯坦福大學、多倫多大學等機構的研究者提出了一種替代觀察法:可觀察的擴展定律(Observational Scaling Laws),其將語言模型 (LM) 的功能與跨多個模型系列的下游性能聯系起來,而不是像標準計算擴展規律那樣僅在單個系列內。
該方法繞過了模型訓練,而是從基于大約 80 個公開可用的模型上建立擴展定律。但這又引出了另一個問題,從多個模型族構建單一擴展定律面臨巨大的挑戰,原因在于不同模型之間的訓練計算效率和能力存在很大差異。
盡管如此,該研究表明,這些變化與一個簡單的、廣義的擴展定律是一致的,在這個定律中,語言模型性能是低維能力空間(low-dimensional capability space)的
原文鏈接:從80個模型中構建Scaling Law:華人博士生新作,思維鏈提出者力薦
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...