<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制

        AIGC動態5個月前發布 量子位
        380 0 0

        當AI遇上字母游戲…

        DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制

        原標題:DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制
        文章來源:量子位
        內容字數:5933字

        最新大語言模型推理能力測試引發爭議:DeepSeek R1頻頻“放棄”

        近日,一篇關于最新大語言模型推理能力測試的研究論文引發熱議。研究人員基于美國廣播節目NPR周日謎題挑戰(The Sunday Puzzle)構建了一個新的基準測試集,包含近600個難度適中、易于理解但不易解決的謎題,用于評估包括OpenAI o1、o3-mini、DeepSeek R1和Google Gemini Flash Thinking等頂尖模型的推理能力。

        1. 新基準測試:難度適中,易于理解和驗證

        與現有基準測試使用大學級數學競賽題或編程題不同,該研究選擇難度適中的謎題,這些謎題只需要基本的英語知識和常識就能理解,答案也易于驗證。例如,“想一個熟悉的五個字母、兩個音節的單詞。將中間字母改為字母表中該字母前面的字母,你將得到一個熟悉的五個字母、三個音節的單詞。這個單詞是什么?”(答案:alpha → aloha)。這種設計使得評估結果更易于理解和解釋。

        2. 測試結果:OpenAI o1表現最佳,DeepSeek R1頻頻“放棄”

        測試結果顯示,OpenAI o1表現最佳,準確率為59%;其次是o3-mini (47%) 和DeepSeek R1 (35%)。值得注意的是,DeepSeek R1在推理過程中經常“放棄”,表現出兩種形式:一是給出與推理過程無關的答案;二是明知答案違反題設條件,仍給出答案。在595個測試問題中,DeepSeek R1在142個問題上明確“放棄”。此外,DeepSeek R1還存在“無限思考”的問題,經常無法在達到32768 token上下文輸出限制前完成推理。

        3. 模型“故障”模式:放棄、無限思考和異常不確定性

        研究揭示了新的模型“故障”模式,例如DeepSeek R1的“放棄”行為和“無限思考”狀態。 此外,模型還表現出異常的不確定性,可能會反復修改答案,或者在找到正確答案后仍繼續探索其他可能性。研究人員發現,推理長度與準確率的關系并非線性正相關,在輸出約10000個token后,繼續推理對提升準確率的幫助不大。對于R1來說,在輸出約3000 token時就開始超過Gemini Thinking的表現。

        4. 網友熱議:對“推理”定義的爭議

        這項研究在Hacker News上引發熱烈討論。一些網友質疑該研究是否真正考察了模型的“推理”能力,認為解決這些問題更依賴于對特定知識的記憶和檢索,而非真正的邏輯推理。他們認為,如果問題是多項選擇的,那么測試才更能體現推理能力。

        5. 研究意義與未來方向

        盡管存在爭議,這項研究仍然具有重要的意義。它提供了一個新的基準測試集,可以更有效地評估大語言模型的推理能力,并揭示了一些新的模型“故障”模式。未來研究可以進一步探索如何改進模型的推理機制,例如,開發更有效的推理時機控制機制,以避免模型陷入“無限思考”狀態,并提高模型的推理效率和準確性。

        總而言之,這項研究為大語言模型的推理能力評估提供了新的視角和方法,也引發了對“推理”定義和模型評估方法的深入思考。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品国产精品乱码不99| 天天拍拍天天爽免费视频| 亚洲中文字幕无码爆乳AV| 黄色毛片视频免费| 亚洲av高清在线观看一区二区 | 久久毛片免费看一区二区三区| 国产美女a做受大片免费| 亚洲免费综合色在线视频| 性做久久久久久久免费看| 亚洲H在线播放在线观看H| 妞干网在线免费视频| 亚洲.国产.欧美一区二区三区| 午夜dj免费在线观看| MM1313亚洲国产精品| 精品人妻系列无码人妻免费视频| 亚洲中文字幕伊人久久无码| eeuss免费天堂影院| 69pao强力打造免费高清| 亚洲综合无码一区二区三区| 丁香花免费高清视频完整版| 亚洲一区二区三区国产精华液| 国产无遮挡色视频免费视频| 大片免费观看92在线视频线视频| 亚洲最大激情中文字幕| 在线免费观看你懂的| 亚洲欧美成人av在线观看| 亚洲国产精品成人一区| 免费无码黄网站在线看| 亚洲国产精品成人久久蜜臀 | 边摸边吃奶边做爽免费视频99| 亚洲精品456播放| 国产精品偷伦视频观看免费| 亚洲激情校园春色| 四虎成人精品在永久免费| 亚洲国产精品成人精品小说| 免费看片免费播放| a级毛片免费播放| 亚洲中文字幕一二三四区| 久久久久亚洲AV综合波多野结衣| 99在线观看视频免费| 亚洲av无码专区在线电影|