OpenAI Jason wei解讀o1:思維鏈的“頓悟時(shí)刻”,大模型不再鸚鵡學(xué)舌
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI Jason wei解讀o1:思維鏈的“頓悟時(shí)刻”,大模型不再鸚鵡學(xué)舌
關(guān)鍵字:報(bào)告,知識(shí)產(chǎn)權(quán),人工智能,政策,華為
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
來(lái)源:AI寒武紀(jì)
OpenAI的研究員Jason Wei(o1思維鏈核心開(kāi)發(fā)人員)點(diǎn)出了一個(gè)關(guān)鍵但容易被忽視的問(wèn)題:思維鏈在o1出現(xiàn)前后發(fā)生了巨大的變化,雖然只是名稱上多了個(gè)”o1″,但這背后的含義卻遠(yuǎn)不止如此
o1之前:模仿秀,不是真思考在o1范式出現(xiàn)之前(即思維鏈提示的早期階段),思維鏈的實(shí)際運(yùn)作方式與我們期望的之間存在著很大的差異。我們希望思維鏈能夠反映模型真正的思考過(guò)程,但實(shí)際上,模型只是在模仿它在預(yù)訓(xùn)練數(shù)據(jù)中看到的推理路徑,例如數(shù)學(xué)作業(yè)的解答。
這類數(shù)據(jù)的最大問(wèn)題在于,它們是事后諸葛亮式的總結(jié),作者在其他地方完成了所有思考過(guò)程后才寫下的答案,而不是真正的思維過(guò)程記錄。因此,這些答案的信息密度往往很低,一個(gè)極端的例子就是“答案是5,因?yàn)椤保渲小?”這個(gè)詞承載了幾乎所有的新信息量,而前面的鋪墊卻冗長(zhǎng)而低效
o1之后:內(nèi)心獨(dú)白,信息量o1范式出現(xiàn)后,你會(huì)發(fā)現(xiàn)思維鏈看起來(lái)與教科書(shū)式的數(shù)學(xué)解答截然不同。這些思維鏈更像是模型的“內(nèi)心獨(dú)白”或“意識(shí)流”。你會(huì)看到模型進(jìn)行回溯、修正,它會(huì)說(shuō)“或者,讓我們?cè)囋嚒薄ⅰ暗鹊龋恰敝惖脑挘w現(xiàn)了真正的思考和探索過(guò)程
Jason
原文鏈接:OpenAI Jason wei解讀o1:思維鏈的“頓悟時(shí)刻”,大模型不再鸚鵡學(xué)舌
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:
作者簡(jiǎn)介: