OpenAI Jason wei解讀o1:思維鏈的“頓悟時(shí)刻”,大模型不再鸚鵡學(xué)舌

AIGC動(dòng)態(tài)6個(gè)月前發(fā)布人工智能學(xué)家

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：OpenAI Jason wei解讀o1:思維鏈的“頓悟時(shí)刻”,大模型不再鸚鵡學(xué)舌
關(guān)鍵字：報(bào)告,知識(shí)產(chǎn)權(quán),人工智能,政策,華為
文章來(lái)源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

來(lái)源：AI寒武紀(jì)
OpenAI的研究員Jason Wei（o1思維鏈核心開(kāi)發(fā)人員）點(diǎn)出了一個(gè)關(guān)鍵但容易被忽視的問(wèn)題：思維鏈在o1出現(xiàn)前后發(fā)生了巨大的變化，雖然只是名稱上多了個(gè)”o1″，但這背后的含義卻遠(yuǎn)不止如此
o1之前：模仿秀，不是真思考在o1范式出現(xiàn)之前（即思維鏈提示的早期階段），思維鏈的實(shí)際運(yùn)作方式與我們期望的之間存在著很大的差異。我們希望思維鏈能夠反映模型真正的思考過(guò)程，但實(shí)際上，模型只是在模仿它在預(yù)訓(xùn)練數(shù)據(jù)中看到的推理路徑，例如數(shù)學(xué)作業(yè)的解答。
這類數(shù)據(jù)的最大問(wèn)題在于，它們是事后諸葛亮式的總結(jié)，作者在其他地方完成了所有思考過(guò)程后才寫下的答案，而不是真正的思維過(guò)程記錄。因此，這些答案的信息密度往往很低，一個(gè)極端的例子就是“答案是5，因?yàn)椤保渲小?”這個(gè)詞承載了幾乎所有的新信息量，而前面的鋪墊卻冗長(zhǎng)而低效
o1之后：內(nèi)心獨(dú)白，信息量o1范式出現(xiàn)后，你會(huì)發(fā)現(xiàn)思維鏈看起來(lái)與教科書(shū)式的數(shù)學(xué)解答截然不同。這些思維鏈更像是模型的“內(nèi)心獨(dú)白”或“意識(shí)流”。你會(huì)看到模型進(jìn)行回溯、修正，它會(huì)說(shuō)“或者，讓我們?cè)囋嚒薄ⅰ暗鹊龋恰敝惖脑挘w現(xiàn)了真正的思考和探索過(guò)程
Jason

原文鏈接：OpenAI Jason wei解讀o1:思維鏈的“頓悟時(shí)刻”,大模型不再鸚鵡學(xué)舌