NeurIPS 2024 | 自我糾錯(cuò)如何使OpenAI o1推理能力大大加強(qiáng)?北大、MIT團(tuán)隊(duì)給出理論解釋
AIGC動態(tài)歡迎閱讀
原標(biāo)題:NeurIPS 2024 | 自我糾錯(cuò)如何使OpenAI o1推理能力大大加強(qiáng)?北大、MIT團(tuán)隊(duì)給出理論解釋
關(guān)鍵字:模型,上下文,自我,注意力,機(jī)制
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
自我糾錯(cuò)(Self Correction)能力,傳統(tǒng)上被視為人類特有的特征,正越來越多地在人工智能領(lǐng)域,尤其是大型語言模型(LLMs)中得到廣泛應(yīng)用,最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我糾正的方法。
傳統(tǒng)的大語言模型,因?yàn)樵谳敵龃鸢傅臅r(shí)候是逐個(gè)Token輸出,當(dāng)輸出長度較長時(shí),中間某些Token出錯(cuò)是必然發(fā)生。但即使LLM后來知道前面輸出的Token錯(cuò)了,它也得用更多錯(cuò)誤來“圓謊”,因?yàn)闆]有機(jī)制讓它去修正前面的錯(cuò)誤。
而OpenAI o1在“慢思考”也就是生成Hidden COT的過程中,通過分析OpenAI官網(wǎng)給出的Hidden COT例子可以發(fā)現(xiàn),在解決字謎問題的思考過程中,o1首先發(fā)現(xiàn)了每兩個(gè)連續(xù)的
原文鏈接:NeurIPS 2024 | 自我糾錯(cuò)如何使OpenAI o1推理能力大大加強(qiáng)?北大、MIT團(tuán)隊(duì)給出理論解釋
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: