<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制

        AIGC動態3個月前發布 量子位
        378 0 0

        當AI遇上字母游戲…

        DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制

        原標題:DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制
        文章來源:量子位
        內容字數:5933字

        最新大語言模型推理能力測試引發爭議:DeepSeek R1頻頻“放棄”

        近日,一篇關于最新大語言模型推理能力測試的研究論文引發熱議。研究人員基于美國廣播節目NPR周日謎題挑戰(The Sunday Puzzle)構建了一個新的基準測試集,包含近600個難度適中、易于理解但不易解決的謎題,用于評估包括OpenAI o1、o3-mini、DeepSeek R1和Google Gemini Flash Thinking等頂尖模型的推理能力。

        1. 新基準測試:難度適中,易于理解和驗證

        與現有基準測試使用大學級數學競賽題或編程題不同,該研究選擇難度適中的謎題,這些謎題只需要基本的英語知識和常識就能理解,答案也易于驗證。例如,“想一個熟悉的五個字母、兩個音節的單詞。將中間字母改為字母表中該字母前面的字母,你將得到一個熟悉的五個字母、三個音節的單詞。這個單詞是什么?”(答案:alpha → aloha)。這種設計使得評估結果更易于理解和解釋。

        2. 測試結果:OpenAI o1表現最佳,DeepSeek R1頻頻“放棄”

        測試結果顯示,OpenAI o1表現最佳,準確率為59%;其次是o3-mini (47%) 和DeepSeek R1 (35%)。值得注意的是,DeepSeek R1在推理過程中經?!胺艞墶保憩F出兩種形式:一是給出與推理過程無關的答案;二是明知答案違反題設條件,仍給出答案。在595個測試問題中,DeepSeek R1在142個問題上明確“放棄”。此外,DeepSeek R1還存在“無限思考”的問題,經常無法在達到32768 token上下文輸出限制前完成推理。

        3. 模型“故障”模式:放棄、無限思考和異常不確定性

        研究揭示了新的模型“故障”模式,例如DeepSeek R1的“放棄”行為和“無限思考”狀態。 此外,模型還表現出異常的不確定性,可能會反復修改答案,或者在找到正確答案后仍繼續探索其他可能性。研究人員發現,推理長度與準確率的關系并非線性正相關,在輸出約10000個token后,繼續推理對提升準確率的幫助不大。對于R1來說,在輸出約3000 token時就開始超過Gemini Thinking的表現。

        4. 網友熱議:對“推理”定義的爭議

        這項研究在Hacker News上引發熱烈討論。一些網友質疑該研究是否真正考察了模型的“推理”能力,認為解決這些問題更依賴于對特定知識的記憶和檢索,而非真正的邏輯推理。他們認為,如果問題是多項選擇的,那么測試才更能體現推理能力。

        5. 研究意義與未來方向

        盡管存在爭議,這項研究仍然具有重要的意義。它提供了一個新的基準測試集,可以更有效地評估大語言模型的推理能力,并揭示了一些新的模型“故障”模式。未來研究可以進一步探索如何改進模型的推理機制,例如,開發更有效的推理時機控制機制,以避免模型陷入“無限思考”狀態,并提高模型的推理效率和準確性。

        總而言之,這項研究為大語言模型的推理能力評估提供了新的視角和方法,也引發了對“推理”定義和模型評估方法的深入思考。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕亚洲综合久久菠萝蜜| 亚洲精品电影在线| 久久精品视频免费看| 亚洲av永久无码嘿嘿嘿 | 最近高清国语中文在线观看免费| 亚洲va在线va天堂成人| 亚洲精品乱码久久久久久不卡| 久久免费视频99| 亚洲欧美日韩久久精品| 日本亚洲视频在线| 成人午夜18免费看| 免费人成激情视频在线观看冫| 久久精品国产亚洲av麻豆蜜芽 | 亚洲激情校园春色| 亚洲AV无码成H人在线观看| 永久在线观看www免费视频| 美女露隐私全部免费直播| 亚洲老熟女@TubeumTV| 亚洲乱码中文字幕综合234| 久久精品免费一区二区| 亚洲精品黄色视频在线观看免费资源 | 国产91久久久久久久免费| 99久久免费精品高清特色大片| 国产午夜亚洲精品不卡免下载| 久久亚洲AV无码精品色午夜| 亚洲国产成人影院播放| 色se01短视频永久免费| 国产免费一区二区视频| 国产精品亚洲va在线观看| 亚洲国语在线视频手机在线| 亚洲成a人片在线观看日本| 免费在线一级毛片| 成年轻人网站色免费看| 999任你躁在线精品免费不卡| 精品国产呦系列在线观看免费| 亚洲国产精品精华液| 亚洲一区中文字幕| 亚洲美女视频免费| 久久精品国产99精品国产亚洲性色| www国产亚洲精品久久久| 精品剧情v国产在免费线观看|