OpenAI的Weak-to-Strong在說什么
AIGC動態(tài)歡迎閱讀
原標(biāo)題:OpenAI的Weak-to-Strong在說什么
關(guān)鍵字:模型,人類,數(shù)據(jù),任務(wù),效果
文章來源:算法邦
內(nèi)容字?jǐn)?shù):5149字
內(nèi)容摘要:
前陣子OpenAI新成立的SuperAlignment放出了他們的第一篇工作[1],雖然沒有帶來太多震撼,只是驗證了一個簡單的直覺:用弱一點的模型標(biāo)注數(shù)據(jù),精調(diào)更強(qiáng)的基模型,得到的效果好于弱模型本身。
但通過上面的結(jié)論,就可以推斷出:用人類標(biāo)注的數(shù)據(jù),精調(diào)強(qiáng)于人類的基模型,就能超越人類了。這就是OpenAI的風(fēng)格,論文看著也沒說啥,只是說了一個小規(guī)律,但如果把這個小規(guī)律scale起來,就大力出奇跡了。
不過這篇文章跟之前SuperAlignment放出的計劃還是有些區(qū)別,也沒我預(yù)期那么fancy(我不配),下面先簡要介紹下這篇文章的重點結(jié)論,再聊下個人觀后感。
01Weak-to-Strong講了啥這篇文章主要是驗證:用弱模型的輸出訓(xùn)強(qiáng)基座,是否能產(chǎn)生大于弱模型的效果?
作者的做法很簡單:
用監(jiān)督數(shù)據(jù)訓(xùn)一個弱模型,作為基線
用弱模型產(chǎn)生label,訓(xùn)練強(qiáng)模型
用監(jiān)督數(shù)據(jù)訓(xùn)strong模型,作為天花板
在NLP任務(wù)上,得到的效果很理想,精調(diào)出的模型好于弱模型,且效果會隨著弱模型尺寸、強(qiáng)模型尺寸的提升而提升。但問題馬上就來了,在chess puzzles、reward modeling這兩
原文鏈接:OpenAI的Weak-to-Strong在說什么
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關(guān)注大模型、生成式AI、計算機(jī)視覺三大領(lǐng)域的研究與開發(fā),提供技術(shù)文章、講座、在線研討會。