大模型對(duì)齊階段的Scaling Laws

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型對(duì)齊階段的Scaling Laws
關(guān)鍵字:模型,數(shù)據(jù),尺寸,效果,作者
文章來(lái)源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):6364字
內(nèi)容摘要:
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自李rumor
隨著過(guò)去一年大模型技術(shù)的發(fā)展,數(shù)據(jù)、模型尺寸scale up后的能力已經(jīng)不容置疑,scaling law也被越來(lái)越多研究者重視起來(lái)。在預(yù)訓(xùn)練資源消耗如此大的情況下,掌握scaling law有眾多優(yōu)點(diǎn):
提前預(yù)測(cè)最終模型效果,知道每次訓(xùn)練的大概能到什么程度,要是不及預(yù)期可以根據(jù)預(yù)算再進(jìn)行調(diào)整
在小尺寸模型上做置信的實(shí)驗(yàn),進(jìn)行數(shù)據(jù)、算法策略驗(yàn)證,降低實(shí)驗(yàn)的時(shí)間、資源成本
在真正的大規(guī)模預(yù)訓(xùn)練中,隨時(shí)監(jiān)測(cè)模型效果是否符合預(yù)期
目前對(duì)于scaling law的研究主要是在預(yù)訓(xùn)練階段,而對(duì)齊階段在數(shù)據(jù)、算法策略上的實(shí)驗(yàn)也會(huì)有很大成本,今天我們就來(lái)看兩篇對(duì)齊階段的工作,分別研究了SFT和RLHF階段影響效果的重要因素,希望能給大家?guī)?lái)一些新的insight。
01 精調(diào)saling Law
When Scaling Meets LLM Finetuning – The Effect of Data, Model and Finetuning Method[1]
這篇文章來(lái)自Google,發(fā)表在ICLR2024。作者主要在文本翻譯任務(wù)上,研究了精調(diào)數(shù)據(jù)數(shù)量、模型尺
原文鏈接:大模型對(duì)齊階段的Scaling Laws
聯(lián)系作者
文章來(lái)源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡(jiǎn)介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化

粵公網(wǎng)安備 44011502001135號(hào)