OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化,不限于推理任務(wù)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化,不限于推理任務(wù)
關(guān)鍵字:模型,基線,過程,提示,鏈?zhǔn)?/a>
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAIOpenAI-o1替代品來了,大模型能根據(jù)任務(wù)復(fù)雜度進行不同時間的思考。
不限于推理性的邏輯或數(shù)學(xué)任務(wù),一般問答也能思考的那種。
最近暢銷書《Python機器學(xué)習(xí)》作者Sebastian Raschka推薦了一項新研究,被網(wǎng)友們齊刷刷碼住了。
論文一作為華人學(xué)者Tianhao Wu,導(dǎo)師之一是2011年清華特獎得主焦劍濤。
團隊提出了一種稱作思考偏好優(yōu)化(Thought Preference Optimization)的方法,能讓模型像OpenAI-o1一樣,通過內(nèi)部“思考”輸出更好答案,最終只顯示結(jié)果,不展示思考過程。
TPO將思維鏈?zhǔn)教崾?推理融入訓(xùn)練中:
在回答之前,用思維鏈?zhǔn)椒椒ㄟM行思考;使用一個LLM評判來評估響應(yīng)(不包括由LLM生成的想法);根據(jù)被拒絕和優(yōu)選的響應(yīng)形成偏好對進行DPO(包括這些響應(yīng)中的想法)。
基于Llama 3 8B Instruct的結(jié)果表明,TPO效果相當(dāng)好。
有意思的是,如果添加了思維提示,但Llama 3 8B Instruct基礎(chǔ)模型沒有在偏好對上經(jīng)歷DPO微調(diào),那么這個基礎(chǔ)模型的性能會比沒有思維
原文鏈接:OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化,不限于推理任務(wù)
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: