Meta版快慢機(jī)來(lái)了!田淵棟團(tuán)隊(duì)整合快慢思考,能走迷宮推箱子
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Meta版快慢機(jī)來(lái)了!田淵棟團(tuán)隊(duì)整合快慢思考,能走迷宮推箱子
關(guān)鍵字:模型,任務(wù),快慢,迷宮,子句
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
明敏 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIMeta版“快慢機(jī)”來(lái)了。
田淵棟團(tuán)隊(duì)帶來(lái)新作Dualformer,把快慢思考無(wú)縫結(jié)合,性能提升還成本更低。
能解決迷宮、推箱子等復(fù)雜問(wèn)題。
通過(guò)讓模型在推理軌跡和最終答案上進(jìn)行訓(xùn)練,再基于特定策略丟掉部分軌跡,Dualformer模型可以在模仿慢思考的同時(shí),像快思考一樣走捷徑。
由此能形成更簡(jiǎn)潔的思維鏈(CoT)。
從結(jié)果來(lái)看,在慢思考模式下,Dualformer的最優(yōu)解率達(dá)到97.6%,推理步驟減少45.5%。
自動(dòng)切換快慢思考模式下,最優(yōu)率也達(dá)到96.6%,且推理步驟減少59.9%。
搞定o1玩不來(lái)的迷宮游戲o1帶火了系統(tǒng)2(慢思考),能讓大模型推理能力大幅提升。
但是隨之而來(lái)的計(jì)算成本更高。
Dualformer能很好結(jié)合快慢思考,從而緩解這一問(wèn)題。
它建立在Searchformer這項(xiàng)工作的基礎(chǔ)上。Searchformer是一個(gè)可以解決復(fù)雜推理任務(wù)的模型,在A*搜索算法生成的路徑上訓(xùn)練而來(lái),在路徑規(guī)劃任務(wù)(如迷宮、推箱子游戲)上表現(xiàn)良好,可以以更高效率找到最優(yōu)解。
研究發(fā)現(xiàn),人類(lèi)會(huì)在思考過(guò)程中傾向于找捷徑。為了更進(jìn)一步模擬人類(lèi)
原文鏈接:Meta版快慢機(jī)來(lái)了!田淵棟團(tuán)隊(duì)整合快慢思考,能走迷宮推箱子
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: