<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        新研究揭示DeepSeek/o3弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的!

        AIGC動態8個月前發布 量子位
        344 0 0

        70%錯誤回答的思考過程中至少含一個正確思路

        新研究揭示DeepSeek/o3弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的!

        原標題:新研究揭示DeepSeek/o3弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的!
        文章來源:量子位
        內容字數:4133字

        大型語言模型的“欠思考”現象及解決方案

        近期研究揭示了大型語言模型(LLM),例如DeepSeek-R1和Qwen QwQ系列,在處理高難度問題時存在的“欠思考”(Underthinking)現象。該現象表現為模型在解題過程中頻繁切換思路,卻缺乏深入探索,最終導致錯誤答案。騰訊AI實驗室、蘇州大學和上海交通大學的研究團隊對此進行了深入研究。

        1. “三心二意”的AI:頻繁切換思路導致失敗

        研究發現,LLM在遇到難題時,經常在早期找到正確的解題思路,但卻“淺嘗輒止”,迅速轉向其他思路,導致后續生成的數千個token對解題毫無貢獻。這種“無效努力”不僅浪費計算資源,還嚴重降低了答案的準確率。在數學競賽題等復雜任務中,這種現象尤為明顯。

        2. 實驗結果:錯誤答案消耗更多資源和思維切換

        研究團隊在MATH500、GPQA Diamond和AIME2024三個具有挑戰性的測試集上,對DeepSeek-R1-671B和QwQ-32B-Preview等模型進行了實驗。結果顯示,在錯誤回答中,LLM平均消耗了正確回答225%的token,思維切換頻率增加了418%。超過70%的錯誤答案中至少包含一個正確的思路,超過50%的錯誤答案中,有10%以上的思路是正確的。 這表明模型并非完全缺乏正確的思路,而是缺乏深入探索的能力。

        3. Underthinking Metric:量化“欠思考”程度

        研究團隊開發了一個Underthinking Metric指標,用于量化“欠思考”的程度。該指標通過測量錯誤答案中token的使用效率來評估推理效率。實驗結果表明,所有測試的類o1模型都存在顯著的思維不足問題。不同數據集上,模型準確率與“欠思考”程度的關系也存在差異。

        4. 解決方案:思路切換懲罰機制(TIP)

        研究人員借鑒人類考試策略,提出了一種“思路切換懲罰機制”(Thought Switching Penalty,TIP)。該機制通過對觸發思路切換的關鍵詞施加懲罰,降低這些詞在解碼過程中的生成概率,迫使模型在當前路徑上探索更久。實驗結果顯示,加入TIP能提高模型在數學測試上的準確率,同時降低UT Score,說明既減少了無效切換,又提高了答案質量。例如,在AIME2024測試上,QwQ-32B-Preview模型的準確率從41.7%提升至45.8%。

        5. 簡潔解碼(Laconic decoding):另一種有效方法

        UC Berkeley教授Alex Dimakis的研究也觀察到類似現象,并提出了一種“簡潔解碼”(Laconic decoding)方法。該方法并行運行模型多次,選擇token數量最少的答案。初步實驗結果表明,簡潔解碼在AIME2024測試上能提高6%-7%的準確率。

        總而言之,理解和解決LLM的“欠思考”現象對于開發更強大、更可靠的AI模型至關重要。TIP和Laconic decoding等方法為解決這一問題提供了有效的途徑。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一线产区二线产区精华| 国产精品无码免费专区午夜| 国产亚洲精品xxx| 一二三四在线播放免费观看中文版视频| fc2成年免费共享视频网站| 亚洲av午夜精品无码专区| 亚洲毛片αv无线播放一区| 嫩草影院免费观看| 18女人腿打开无遮掩免费| 国产真人无码作爱免费视频| 亚洲第一第二第三第四第五第六| 亚洲第一页中文字幕| 国产亚洲综合一区柠檬导航| 成人亚洲综合天堂| 免费无码又爽又刺激毛片| 动漫黄网站免费永久在线观看| 久久国产精品免费视频| 99久久成人国产精品免费| 免费国产草莓视频在线观看黄| 一本天堂ⅴ无码亚洲道久久| 久久亚洲AV无码精品色午夜| 亚洲国产无套无码av电影| 亚洲中文字幕在线第六区| gogo全球高清大胆亚洲| 日本一区免费电影| 成**人免费一级毛片| 成人毛片手机版免费看| 国产福利在线免费| 成人毛片免费观看| 成年丰满熟妇午夜免费视频| 在线播放高清国语自产拍免费| 日韩欧毛片免费视频| 日韩亚洲国产高清免费视频| 999国内精品永久免费观看| 美丽的姑娘免费观看在线播放| 9420免费高清在线视频| 7m凹凸精品分类大全免费| 久久综合国产乱子伦精品免费| 99re在线精品视频免费| 59pao成国产成视频永久免费| 最近2022中文字幕免费视频|