<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制

        AIGC動態7個月前發布 量子位
        388 0 0

        當AI遇上字母游戲…

        DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制

        原標題:DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制
        文章來源:量子位
        內容字數:5933字

        最新大語言模型推理能力測試引發爭議:DeepSeek R1頻頻“放棄”

        近日,一篇關于最新大語言模型推理能力測試的研究論文引發熱議。研究人員基于美國廣播節目NPR周日謎題挑戰(The Sunday Puzzle)構建了一個新的基準測試集,包含近600個難度適中、易于理解但不易解決的謎題,用于評估包括OpenAI o1、o3-mini、DeepSeek R1和Google Gemini Flash Thinking等頂尖模型的推理能力。

        1. 新基準測試:難度適中,易于理解和驗證

        與現有基準測試使用大學級數學競賽題或編程題不同,該研究選擇難度適中的謎題,這些謎題只需要基本的英語知識和常識就能理解,答案也易于驗證。例如,“想一個熟悉的五個字母、兩個音節的單詞。將中間字母改為字母表中該字母前面的字母,你將得到一個熟悉的五個字母、三個音節的單詞。這個單詞是什么?”(答案:alpha → aloha)。這種設計使得評估結果更易于理解和解釋。

        2. 測試結果:OpenAI o1表現最佳,DeepSeek R1頻頻“放棄”

        測試結果顯示,OpenAI o1表現最佳,準確率為59%;其次是o3-mini (47%) 和DeepSeek R1 (35%)。值得注意的是,DeepSeek R1在推理過程中經常“放棄”,表現出兩種形式:一是給出與推理過程無關的答案;二是明知答案違反題設條件,仍給出答案。在595個測試問題中,DeepSeek R1在142個問題上明確“放棄”。此外,DeepSeek R1還存在“無限思考”的問題,經常無法在達到32768 token上下文輸出限制前完成推理。

        3. 模型“故障”模式:放棄、無限思考和異常不確定性

        研究揭示了新的模型“故障”模式,例如DeepSeek R1的“放棄”行為和“無限思考”狀態。 此外,模型還表現出異常的不確定性,可能會反復修改答案,或者在找到正確答案后仍繼續探索其他可能性。研究人員發現,推理長度與準確率的關系并非線性正相關,在輸出約10000個token后,繼續推理對提升準確率的幫助不大。對于R1來說,在輸出約3000 token時就開始超過Gemini Thinking的表現。

        4. 網友熱議:對“推理”定義的爭議

        這項研究在Hacker News上引發熱烈討論。一些網友質疑該研究是否真正考察了模型的“推理”能力,認為解決這些問題更依賴于對特定知識的記憶和檢索,而非真正的邏輯推理。他們認為,如果問題是多項選擇的,那么測試才更能體現推理能力。

        5. 研究意義與未來方向

        盡管存在爭議,這項研究仍然具有重要的意義。它提供了一個新的基準測試集,可以更有效地評估大語言模型的推理能力,并揭示了一些新的模型“故障”模式。未來研究可以進一步探索如何改進模型的推理機制,例如,開發更有效的推理時機控制機制,以避免模型陷入“無限思考”狀態,并提高模型的推理效率和準確性。

        總而言之,這項研究為大語言模型的推理能力評估提供了新的視角和方法,也引發了對“推理”定義和模型評估方法的深入思考。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲伊人久久综合影院| 亚洲AV男人的天堂在线观看| 亚洲午夜精品第一区二区8050| 亚洲一欧洲中文字幕在线| 国产亚洲精彩视频| 4hu四虎免费影院www| 97公开免费视频| 在线视频免费观看www动漫| 亚洲精品无码成人片在线观看| 亚洲国产人成在线观看69网站 | 小说专区亚洲春色校园| 成人A片产无码免费视频在线观看| 国产精彩免费视频| 亚洲国产精品碰碰| 亚洲人成图片网站| 手机看片久久国产免费| 亚洲人成电影亚洲人成9999网| 99久久免费观看| 中文字幕精品无码亚洲字| 亚洲精品无码久久久久秋霞| 日本一道本不卡免费| 亚洲毛片av日韩av无码| 青青操视频在线免费观看| 国产成人免费高清在线观看| 亚洲丰满熟女一区二区v| 精品无码无人网站免费视频 | 亚洲Av无码国产情品久久| 国产特黄一级一片免费| 国产免费卡一卡三卡乱码| 亚洲va久久久久| 亚洲国产婷婷香蕉久久久久久| 精品四虎免费观看国产高清午夜| 亚洲综合色视频在线观看| 182tv免费视视频线路一二三| 亚洲av日韩av激情亚洲| 波霸在线精品视频免费观看| 亚洲男人的天堂一区二区| 午夜精品免费在线观看 | 97se亚洲综合在线| 国产在线精品免费aaa片| 亚洲中文无码a∨在线观看|