OpenAI的Weak-to-Strong在說什么
AIGC動態(tài)歡迎閱讀
原標題:OpenAI的Weak-to-Strong在說什么
關鍵字:模型,人類,數據,任務,效果
文章來源:算法邦
內容字數:5149字
內容摘要:
前陣子OpenAI新成立的SuperAlignment放出了他們的第一篇工作[1],雖然沒有帶來太多震撼,只是驗證了一個簡單的直覺:用弱一點的模型標注數據,精調更強的基模型,得到的效果好于弱模型本身。
但通過上面的結論,就可以推斷出:用人類標注的數據,精調強于人類的基模型,就能超越人類了。這就是OpenAI的風格,論文看著也沒說啥,只是說了一個小規(guī)律,但如果把這個小規(guī)律scale起來,就大力出奇跡了。
不過這篇文章跟之前SuperAlignment放出的計劃還是有些區(qū)別,也沒我預期那么fancy(我不配),下面先簡要介紹下這篇文章的重點結論,再聊下個人觀后感。
01Weak-to-Strong講了啥這篇文章主要是驗證:用弱模型的輸出訓強基座,是否能產生大于弱模型的效果?
作者的做法很簡單:
用監(jiān)督數據訓一個弱模型,作為基線
用弱模型產生label,訓練強模型
用監(jiān)督數據訓strong模型,作為天花板
在NLP任務上,得到的效果很理想,精調出的模型好于弱模型,且效果會隨著弱模型尺寸、強模型尺寸的提升而提升。但問題馬上就來了,在chess puzzles、reward modeling這兩
原文鏈接:OpenAI的Weak-to-Strong在說什么
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發(fā),提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...