從80個模型中構建Scaling Law：華人博士生新作，思維鏈提出者力薦

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：從80個模型中構建Scaling Law：華人博士生新作，思維鏈提出者力薦
關鍵字：模型,定律,能力,研究者,性能
文章來源：機器之心
內容字數：5549字

內容摘要：

機器之心報道
編輯：小舟、陳萍在 AI 領域，擴展定律（Scaling laws）是理解 LM 擴展趨勢的強大工具，其為廣大研究者提供了一個準則，該定律在理解語言模型的性能如何隨規模變化提供了一個重要指導。
但不幸的是，擴展分析在許多基準測試和后訓練研究中并不常見，因為大多數研究人員沒有計算資源來從頭開始構建擴展法則，并且開放模型的訓練尺度太少，無法進行可靠的擴展預測。
來自斯坦福大學、多倫多大學等機構的研究者提出了一種替代觀察法：可觀察的擴展定律（Observational Scaling Laws），其將語言模型 (LM) 的功能與跨多個模型系列的下游性能聯系起來，而不是像標準計算擴展規律那樣僅在單個系列內。
該方法繞過了模型訓練，而是從基于大約 80 個公開可用的模型上建立擴展定律。但這又引出了另一個問題，從多個模型族構建單一擴展定律面臨巨大的挑戰，原因在于不同模型之間的訓練計算效率和能力存在很大差異。
盡管如此，該研究表明，這些變化與一個簡單的、廣義的擴展定律是一致的，在這個定律中，語言模型性能是低維能力空間（low-dimensional capability space）的

原文鏈接：從80個模型中構建Scaling Law：華人博士生新作，思維鏈提出者力薦