<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務

        AIGC動態11個月前發布 量子位
        375 0 0

        OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務

        AIGC動態歡迎閱讀

        原標題:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務
        關鍵字:模型,基線,過程,提示,鏈式
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI-o1替代品來了,大模型能根據任務復雜度進行不同時間的思考。
        不限于推理性的邏輯或數學任務,一般問答也能思考的那種。
        最近暢銷書《Python機器學習》作者Sebastian Raschka推薦了一項新研究,被網友們齊刷刷碼住了。
        論文一作為華人學者Tianhao Wu,導師之一是2011年清華特獎得主焦劍濤。
        團隊提出了一種稱作思考偏好優化(Thought Preference Optimization)的方法,能讓模型像OpenAI-o1一樣,通過內部“思考”輸出更好答案,最終只顯示結果,不展示思考過程。
        TPO將思維鏈式提示/推理融入訓練中:
        在回答之前,用思維鏈式方法進行思考;使用一個LLM評判來評估響應(不包括由LLM生成的想法);根據被拒絕和優選的響應形成偏好對進行DPO(包括這些響應中的想法)。
        基于Llama 3 8B Instruct的結果表明,TPO效果相當好。
        有意思的是,如果添加了思維提示,但Llama 3 8B Instruct基礎模型沒有在偏好對上經歷DPO微調,那么這個基礎模型的性能會比沒有思維


        原文鏈接:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優化,不限于推理任務

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品国产精品乱码不卞| 国内自产拍自a免费毛片| 亚洲伦乱亚洲h视频| 国产精品日本亚洲777| 国产麻豆剧传媒精品国产免费 | 亚洲av无码不卡| 免费国产99久久久香蕉| 亚洲成AV人片在线观看无| 久久久久久影院久久久久免费精品国产小说 | 亚洲熟妇无码一区二区三区导航| 国产99视频精品免费观看7| 亚洲AV成人无码天堂| 日韩a级毛片免费观看| 国产成人va亚洲电影| 亚洲国产中文v高清在线观看| 一级做a爰片久久毛片免费陪 | 亚洲国产精品久久人人爱| 国产成人福利免费视频| 亚洲中文字幕久久精品无码A | 亚洲va无码专区国产乱码| 99久热只有精品视频免费看| 亚洲人成网站18禁止久久影院| 成人免费777777| 一区二区三区AV高清免费波多| 国产AV无码专区亚洲AV漫画| 日本免费大黄在线观看| 亚洲综合色7777情网站777| 国产精品久久免费视频| 中国一级毛片免费看视频| 亚洲沟沟美女亚洲沟沟| 国产视频精品免费| 成年免费a级毛片免费看无码| 亚洲国产人成在线观看69网站 | 亚洲一级片免费看| 8888四色奇米在线观看免费看| 亚洲一区二区三区高清不卡| 亚洲av麻豆aⅴ无码电影| 最新黄色免费网站| 黄色一级毛片免费| 亚洲精品国产专区91在线| 亚洲av午夜精品一区二区三区 |