<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

        AIGC動態1年前 (2024)發布 量子位
        499 0 0

        陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

        AIGC動態歡迎閱讀

        原標題:陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替
        關鍵字:模型,對數,長度,概率,樣本
        文章來源:量子位
        內容字數:4946字

        內容摘要:


        克雷西 發自 凹非寺量子位 | 公眾號 QbitAI比斯坦福DPO(直接偏好優化)更簡單的RLHF平替來了,來自陳丹琦團隊。
        該方式在多項測試中性能都遠超DPO,還能讓8B模型戰勝Claude 3的超大杯Opus。
        而且與DPO相比,訓練時間和GPU消耗也都大幅減少。
        這種方法叫做SimPO,Sim是Simple的簡寫,意在突出其簡便性。
        與DPO相比,SimPO擺脫了對參考模型的需要,在簡化訓練流程的同時,還避免了訓練和推理不一致的問題。
        對于這項成果,普林斯頓PLI主任Sanjeev Arora教授這樣稱贊:
        和(SimPO方法調整出的)模型感覺讓人難以置信。Llama3-8B是現在最好的小模型,SimPO把它變得更好了。
        成果發布并開源后,大模型微調平臺Llama-Factory也迅速宣布引進。
        擺脫對參考模型的需要陳丹琦團隊的SimPO,和斯坦福提出的DPO一樣,都是對RLHF中的獎勵函數進行優化。
        在傳統的RLHF中,獎勵函數通常由一個的獎勵模型提供,需要額外的訓練和推理;DPO利用人類偏好和模型輸出之間的關系,直接用語言模型的對數概率來構建獎勵函數,繞開了獎勵模型的


        原文鏈接:陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费看的一级毛片| 亚洲日本在线播放| 99re这里有免费视频精品| 亚洲精品无码久久| 亚洲欧洲日产国码二区首页| 亚洲色大成WWW亚洲女子| 亚洲综合精品一二三区在线| 亚洲成AV人片在线观看WWW| 亚洲国产婷婷综合在线精品 | 亚洲精品国产精品乱码不卡√| 国产一区二区三区在线免费观看 | 羞羞网站在线免费观看| 亚洲中文字幕久久久一区| 亚洲视频在线免费| 最近中文字幕免费大全| 成人精品视频99在线观看免费| 一级做a爰片性色毛片免费网站| 一级看片免费视频囗交| 黄 色一级 成 人网站免费| 在线成人精品国产区免费| 成人无码a级毛片免费| 狠狠久久永久免费观看| 亚洲黄色在线视频| 亚洲国产美女精品久久| 美女无遮挡拍拍拍免费视频 | 中文字幕影片免费在线观看| 青青视频观看免费99| 日本高清免费不卡在线| 国产免费小视频在线观看| 亚洲白嫩在线观看| 亚洲乱妇熟女爽到高潮的片| 最近免费中文字幕mv在线电影| AV免费网址在线观看| 免费a级毛片在线观看| 亚洲精品美女久久777777| 精品免费AV一区二区三区| 插鸡网站在线播放免费观看| 免费大香伊蕉在人线国产| 精品国产成人亚洲午夜福利| caoporn国产精品免费| 亚洲av无码成人精品区在线播放 |