<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

        AIGC動態12個月前發布 量子位
        496 0 0

        陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

        AIGC動態歡迎閱讀

        原標題:陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替
        關鍵字:模型,對數,長度,概率,樣本
        文章來源:量子位
        內容字數:4946字

        內容摘要:


        克雷西 發自 凹非寺量子位 | 公眾號 QbitAI比斯坦福DPO(直接偏好優化)更簡單的RLHF平替來了,來自陳丹琦團隊。
        該方式在多項測試中性能都遠超DPO,還能讓8B模型戰勝Claude 3的超大杯Opus。
        而且與DPO相比,訓練時間和GPU消耗也都大幅減少。
        這種方法叫做SimPO,Sim是Simple的簡寫,意在突出其簡便性。
        與DPO相比,SimPO擺脫了對參考模型的需要,在簡化訓練流程的同時,還避免了訓練和推理不一致的問題。
        對于這項成果,普林斯頓PLI主任Sanjeev Arora教授這樣稱贊:
        和(SimPO方法調整出的)模型感覺讓人難以置信。Llama3-8B是現在最好的小模型,SimPO把它變得更好了。
        成果發布并開源后,大模型微調平臺Llama-Factory也迅速宣布引進。
        擺脫對參考模型的需要陳丹琦團隊的SimPO,和斯坦福提出的DPO一樣,都是對RLHF中的獎勵函數進行優化。
        在傳統的RLHF中,獎勵函數通常由一個的獎勵模型提供,需要額外的訓練和推理;DPO利用人類偏好和模型輸出之間的關系,直接用語言模型的對數概率來構建獎勵函數,繞開了獎勵模型的


        原文鏈接:陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品网站久久| 亚洲成av人片天堂网| 亚洲Av高清一区二区三区| 最近高清中文字幕免费| 亚洲av日韩av无码| 无码人妻久久一区二区三区免费| 在线观看亚洲精品国产| 久久精品免费大片国产大片| 久久久久亚洲?V成人无码| 国产乱子伦精品免费视频| 亚洲中文字幕在线观看| 久草福利资源网站免费| 久久精品国产亚洲精品2020| 美女视频黄是免费的网址| 亚洲AV无码成人网站在线观看| gogo全球高清大胆亚洲| a级毛片毛片免费观看久潮| 亚洲av伊人久久综合密臀性色| 91成人免费观看| 亚洲欧美日本韩国| 亚洲视频人成在线播放| 国产免费阿v精品视频网址| 亚洲欧洲国产综合| 国产男女猛烈无遮档免费视频网站| 免费无遮挡无遮羞在线看 | 亚在线观看免费视频入口| 久久亚洲精品中文字幕| 天天看免费高清影视| 一区二区3区免费视频| 亚洲大片在线观看| 女人18毛片水真多免费播放| 特a级免费高清黄色片| 久久久久亚洲av无码专区喷水 | 好男人资源在线WWW免费| 久久青青草原亚洲av无码app| 成人毛片免费播放| 99免费精品视频| 亚洲 欧洲 日韩 综合在线| 伊人亚洲综合青草青草久热| 曰批视频免费30分钟成人| a级毛片免费观看在线|