大模型對齊階段的Scaling Laws

AIGC動態1年前 (2024)發布大數據文摘

AIGC動態歡迎閱讀

原標題：大模型對齊階段的Scaling Laws
關鍵字：模型,數據,尺寸,效果,作者
文章來源：大數據文摘
內容字數：6364字

內容摘要：

大數據文摘受權轉載自李rumor
隨著過去一年大模型技術的發展，數據、模型尺寸scale up后的能力已經不容置疑，scaling law也被越來越多研究者重視起來。在預訓練資源消耗如此大的情況下，掌握scaling law有眾多優點：
提前預測最終模型效果，知道每次訓練的大概能到什么程度，要是不及預期可以根據預算再進行調整
在小尺寸模型上做置信的實驗，進行數據、算法策略驗證，降低實驗的時間、資源成本
在真正的大規模預訓練中，隨時監測模型效果是否符合預期
目前對于scaling law的研究主要是在預訓練階段，而對齊階段在數據、算法策略上的實驗也會有很大成本，今天我們就來看兩篇對齊階段的工作，分別研究了SFT和RLHF階段影響效果的重要因素，希望能給大家帶來一些新的insight。
01 精調saling Law
When Scaling Meets LLM Finetuning – The Effect of Data, Model and Finetuning Method[1]
這篇文章來自Google，發表在ICLR2024。作者主要在文本翻譯任務上，研究了精調數據數量、模型尺

原文鏈接：大模型對齊階段的Scaling Laws