<label id="3dn8r"><mark id="3dn8r"></mark></label>

<span id="3dn8r"></span>

<span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

<dl id="ows8a"></dl>

<li id="ows8a"><input id="ows8a"></input></li>

<rt id="ows8a"></rt>

<button id="ows8a"></button>

<code id="ows8a"><tr id="ows8a"></tr></code>

<bdo id="ows8a"></bdo>

<cite id="ows8a"></cite>

<center id="ows8a"><acronym id="ows8a"></acronym></center>

陳丹琦團隊新作：微調8B模型超越Claude3 Opus，背后是RLHF新平替

AIGC動態12個月前發布量子位

496 0 0

陳丹琦團隊新作：微調8B模型超越Claude3 Opus，背后是RLHF新平替

AIGC動態歡迎閱讀

原標題：陳丹琦團隊新作：微調8B模型超越Claude3 Opus，背后是RLHF新平替
關鍵字：模型,對數,長度,概率,樣本
文章來源：量子位
內容字數：4946字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI比斯坦福DPO（直接偏好優化）更簡單的RLHF平替來了，來自陳丹琦團隊。
該方式在多項測試中性能都遠超DPO，還能讓8B模型戰勝Claude 3的超大杯Opus。
而且與DPO相比，訓練時間和GPU消耗也都大幅減少。
這種方法叫做SimPO，Sim是Simple的簡寫，意在突出其簡便性。
與DPO相比，SimPO擺脫了對參考模型的需要，在簡化訓練流程的同時，還避免了訓練和推理不一致的問題。
對于這項成果，普林斯頓PLI主任Sanjeev Arora教授這樣稱贊：
和（SimPO方法調整出的）模型感覺讓人難以置信。Llama3-8B是現在最好的小模型，SimPO把它變得更好了。
成果發布并開源后，大模型微調平臺Llama-Factory也迅速宣布引進。
擺脫對參考模型的需要陳丹琦團隊的SimPO，和斯坦福提出的DPO一樣，都是對RLHF中的獎勵函數進行優化。
在傳統的RLHF中，獎勵函數通常由一個的獎勵模型提供，需要額外的訓練和推理；DPO利用人類偏好和模型輸出之間的關系，直接用語言模型的對數概率來構建獎勵函數，繞開了獎勵模型的

原文鏈接：陳丹琦團隊新作：微調8B模型超越Claude3 Opus，背后是RLHF新平替

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

# AIGC動態 # 對數 # 樣本 # 概率 # 模型 # 長度

? 版權聲明

文章版權歸作者所有，未經允許請勿轉載。

Trae官網

相關文章

Trae官網

暫無評論

暫無評論...

主站蜘蛛池模板：亚洲国产精品网站久久| 亚洲成av人片天堂网| 亚洲Av高清一区二区三区| 最近高清中文字幕免费| 亚洲av日韩av无码| 无码人妻久久一区二区三区免费| 在线观看亚洲精品国产| 久久精品免费大片国产大片| 久久久久亚洲?V成人无码| 国产乱子伦精品免费视频| 亚洲中文字幕在线观看| 久草福利资源网站免费| 久久精品国产亚洲精品2020| 美女视频黄是免费的网址| 亚洲AV无码成人网站在线观看| gogo全球高清大胆亚洲| a级毛片毛片免费观看久潮| 亚洲av伊人久久综合密臀性色| 91成人免费观看| 亚洲欧美日本韩国| 亚洲视频人成在线播放| 国产免费阿v精品视频网址| 亚洲欧洲国产综合| 国产男女猛烈无遮档免费视频网站| 免费无遮挡无遮羞在线看 | 亚在线观看免费视频入口| 久久亚洲精品中文字幕| 天天看免费高清影视| 一区二区3区免费视频| 亚洲大片在线观看| 女人18毛片水真多免费播放| 特a级免费高清黄色片| 久久久久亚洲av无码专区喷水 | 好男人资源在线WWW免费| 久久青青草原亚洲av无码app| 成人毛片免费播放| 99免费精品视频| 亚洲欧洲日韩综合在线| 伊人亚洲综合青草青草久热| 曰批视频免费30分钟成人| a级毛片免费观看在线|

<rt id="isago"><acronym id="isago"></acronym></rt><li id="isago"></li>

<rt id="isago"><acronym id="isago"></acronym></rt>

<rt id="isago"><acronym id="isago"></acronym></rt>

<code id="isago"></code>