大模型Scaling Law同樣適用于下游任務性能？斯坦福、谷歌最新研究揭秘

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：大模型Scaling Law同樣適用于下游任務性能？斯坦福、谷歌最新研究揭秘
關鍵字：數據,得分,任務,研究者,下游
文章來源：機器之心
內容字數：10473字

內容摘要：

機器之心報道
編輯：蛋醬、張倩大模型的成功很大程度上要歸因于 Scaling Law 的存在，這一定律量化了模型性能與訓練數據規模、模型架構等設計要素之間的關系，為模型開發、資源分配和選擇合適的訓練數據提供了寶貴的指導。
以往的大量研究集中于上游復雜度或交叉熵損失的 Scaling law（即在預訓練數據上進行評估），但在實際應用中，模型通常要經歷一個遷移學習的過程：首先在無監督數據上進行預訓練，然后針對特定的下游任務（如編碼或翻譯）進行微調。
那么，Scaling Law 能不能用于預測下游任務性能？這個關鍵問題很大程度上仍未得到解答。在最近的一項工作中，斯坦福大學和谷歌的研究者探索了遷移學習的 Scaling Law。論文標題：Scaling Laws for Downstream Task Performance of Large Language Models
論文鏈接：https://arxiv.org/pdf/2402.04177.pdf
任務性能指的是準確率和 BLEU 得分等衡量任務相關的指標，這些指標不同于交叉熵等下一個 token 預測指標。研究者聚焦于機器翻譯任務

原文鏈接：大模型Scaling Law同樣適用于下游任務性能？斯坦福、谷歌最新研究揭秘