AIGC動態歡迎閱讀
原標題:大模型Scaling Law同樣適用于下游任務性能?斯坦福、谷歌最新研究揭秘
關鍵字:數據,得分,任務,研究者,下游
文章來源:機器之心
內容字數:10473字
內容摘要:
機器之心報道
編輯:蛋醬、張倩大模型的成功很大程度上要歸因于 Scaling Law 的存在,這一定律量化了模型性能與訓練數據規模、模型架構等設計要素之間的關系,為模型開發、資源分配和選擇合適的訓練數據提供了寶貴的指導。
以往的大量研究集中于上游復雜度或交叉熵損失的 Scaling law(即在預訓練數據上進行評估),但在實際應用中,模型通常要經歷一個遷移學習的過程:首先在無監督數據上進行預訓練,然后針對特定的下游任務(如編碼或翻譯)進行微調。
那么,Scaling Law 能不能用于預測下游任務性能?這個關鍵問題很大程度上仍未得到解答。在最近的一項工作中,斯坦福大學和谷歌的研究者探索了遷移學習的 Scaling Law。論文標題:Scaling Laws for Downstream Task Performance of Large Language Models
論文鏈接:https://arxiv.org/pdf/2402.04177.pdf
任務性能指的是準確率和 BLEU 得分等衡量任務相關的指標,這些指標不同于交叉熵等下一個 token 預測指標。研究者聚焦于機器翻譯任務
原文鏈接:大模型Scaling Law同樣適用于下游任務性能?斯坦福、谷歌最新研究揭秘
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...