AIGC動態歡迎閱讀
原標題:陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替
關鍵字:模型,對數,長度,概率,樣本
文章來源:量子位
內容字數:4946字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI比斯坦福DPO(直接偏好優化)更簡單的RLHF平替來了,來自陳丹琦團隊。
該方式在多項測試中性能都遠超DPO,還能讓8B模型戰勝Claude 3的超大杯Opus。
而且與DPO相比,訓練時間和GPU消耗也都大幅減少。
這種方法叫做SimPO,Sim是Simple的簡寫,意在突出其簡便性。
與DPO相比,SimPO擺脫了對參考模型的需要,在簡化訓練流程的同時,還避免了訓練和推理不一致的問題。
對于這項成果,普林斯頓PLI主任Sanjeev Arora教授這樣稱贊:
和(SimPO方法調整出的)模型感覺讓人難以置信。Llama3-8B是現在最好的小模型,SimPO把它變得更好了。
成果發布并開源后,大模型微調平臺Llama-Factory也迅速宣布引進。
擺脫對參考模型的需要陳丹琦團隊的SimPO,和斯坦福提出的DPO一樣,都是對RLHF中的獎勵函數進行優化。
在傳統的RLHF中,獎勵函數通常由一個的獎勵模型提供,需要額外的訓練和推理;DPO利用人類偏好和模型輸出之間的關系,直接用語言模型的對數概率來構建獎勵函數,繞開了獎勵模型的
原文鏈接:陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...