AIGC動態歡迎閱讀
原標題:NeurIPS 2024 | 自我糾錯如何使OpenAI o1推理能力大大加強?北大、MIT團隊給出理論解釋
關鍵字:模型,上下文,自我,注意力,機制
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
自我糾錯(Self Correction)能力,傳統上被視為人類特有的特征,正越來越多地在人工智能領域,尤其是大型語言模型(LLMs)中得到廣泛應用,最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我糾正的方法。
傳統的大語言模型,因為在輸出答案的時候是逐個Token輸出,當輸出長度較長時,中間某些Token出錯是必然發生。但即使LLM后來知道前面輸出的Token錯了,它也得用更多錯誤來“圓謊”,因為沒有機制讓它去修正前面的錯誤。
而OpenAI o1在“慢思考”也就是生成Hidden COT的過程中,通過分析OpenAI官網給出的Hidden COT例子可以發現,在解決字謎問題的思考過程中,o1首先發現了每兩個連續的
原文鏈接:NeurIPS 2024 | 自我糾錯如何使OpenAI o1推理能力大大加強?北大、MIT團隊給出理論解釋
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...