<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化,不限于推理任務(wù)

        AIGC動態(tài)7個月前發(fā)布 量子位
        368 0 0

        OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化,不限于推理任務(wù)

        AIGC動態(tài)歡迎閱讀

        原標(biāo)題:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化,不限于推理任務(wù)
        關(guān)鍵字:模型,基線,過程,提示,鏈?zhǔn)?/a>
        文章來源:量子位
        內(nèi)容字數(shù):0字

        內(nèi)容摘要:


        西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAIOpenAI-o1替代品來了,大模型能根據(jù)任務(wù)復(fù)雜度進行不同時間的思考。
        不限于推理性的邏輯或數(shù)學(xué)任務(wù),一般問答也能思考的那種。
        最近暢銷書《Python機器學(xué)習(xí)》作者Sebastian Raschka推薦了一項新研究,被網(wǎng)友們齊刷刷碼住了。
        論文一作為華人學(xué)者Tianhao Wu,導(dǎo)師之一是2011年清華特獎得主焦劍濤。
        團隊提出了一種稱作思考偏好優(yōu)化(Thought Preference Optimization)的方法,能讓模型像OpenAI-o1一樣,通過內(nèi)部“思考”輸出更好答案,最終只顯示結(jié)果,不展示思考過程。
        TPO將思維鏈?zhǔn)教崾?推理融入訓(xùn)練中:
        在回答之前,用思維鏈?zhǔn)椒椒ㄟM行思考;使用一個LLM評判來評估響應(yīng)(不包括由LLM生成的想法);根據(jù)被拒絕和優(yōu)選的響應(yīng)形成偏好對進行DPO(包括這些響應(yīng)中的想法)。
        基于Llama 3 8B Instruct的結(jié)果表明,TPO效果相當(dāng)好。
        有意思的是,如果添加了思維提示,但Llama 3 8B Instruct基礎(chǔ)模型沒有在偏好對上經(jīng)歷DPO微調(diào),那么這個基礎(chǔ)模型的性能會比沒有思維


        原文鏈接:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化,不限于推理任務(wù)

        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品无码久久久秋霞2| 亚洲剧场午夜在线观看| 国产真人无码作爱视频免费| 亚洲第一AAAAA片| 久久国内免费视频| 国产成人亚洲综合无| 亚洲综合图色40p| 波多野结衣免费在线观看| 亚洲精品色在线网站| 亚洲av午夜福利精品一区人妖| 免费在线看v网址| 永久免费精品影视网站| 亚洲国产香蕉碰碰人人| 免费人成视频x8x8入口| 一级毛片全部免费播放| 亚洲精品av无码喷奶水糖心| 国产精一品亚洲二区在线播放| 免费a级毛片无码a∨蜜芽试看| 人成电影网在线观看免费| 亚洲综合亚洲国产尤物| 亚洲av日韩片在线观看| 国产精品久久免费| 无码日韩人妻AV一区免费l| 亚洲美女精品视频| 国产成人精品日本亚洲专区| 无码区日韩特区永久免费系列| 日日摸夜夜添夜夜免费视频 | 亚洲精品中文字幕麻豆| 四虎影视精品永久免费| 18未年禁止免费观看| 一级做a爰片久久免费| 77777午夜亚洲| 亚洲国产精品不卡在线电影| 在线看片无码永久免费aⅴ| 99久久99久久精品免费观看| caoporn成人免费公开| 亚洲欧洲日产国码久在线| 亚洲国产精品不卡在线电影| 国产成人高清亚洲| 亚洲av麻豆aⅴ无码电影| 成年女人色毛片免费看|