DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時(shí)機(jī)控制機(jī)制
當(dāng)AI遇上字母游戲…

原標(biāo)題:DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時(shí)機(jī)控制機(jī)制
文章來源:量子位
內(nèi)容字?jǐn)?shù):5933字
最新大語言模型推理能力測試引發(fā)爭議:DeepSeek R1頻頻“放棄”
近日,一篇關(guān)于最新大語言模型推理能力測試的研究論文引發(fā)熱議。研究人員基于美國廣播節(jié)目NPR周日謎題挑戰(zhàn)(The Sunday Puzzle)構(gòu)建了一個(gè)新的基準(zhǔn)測試集,包含近600個(gè)難度適中、易于理解但不易解決的謎題,用于評估包括OpenAI o1、o3-mini、DeepSeek R1和Google Gemini Flash Thinking等頂尖模型的推理能力。
1. 新基準(zhǔn)測試:難度適中,易于理解和驗(yàn)證
與現(xiàn)有基準(zhǔn)測試使用大學(xué)級數(shù)學(xué)競賽題或編程題不同,該研究選擇難度適中的謎題,這些謎題只需要基本的英語知識和常識就能理解,答案也易于驗(yàn)證。例如,“想一個(gè)熟悉的五個(gè)字母、兩個(gè)音節(jié)的單詞。將中間字母改為字母表中該字母前面的字母,你將得到一個(gè)熟悉的五個(gè)字母、三個(gè)音節(jié)的單詞。這個(gè)單詞是什么?”(答案:alpha → aloha)。這種設(shè)計(jì)使得評估結(jié)果更易于理解和解釋。
2. 測試結(jié)果:OpenAI o1表現(xiàn)最佳,DeepSeek R1頻頻“放棄”
測試結(jié)果顯示,OpenAI o1表現(xiàn)最佳,準(zhǔn)確率為59%;其次是o3-mini (47%) 和DeepSeek R1 (35%)。值得注意的是,DeepSeek R1在推理過程中經(jīng)常“放棄”,表現(xiàn)出兩種形式:一是給出與推理過程無關(guān)的答案;二是明知答案違反題設(shè)條件,仍給出答案。在595個(gè)測試問題中,DeepSeek R1在142個(gè)問題上明確“放棄”。此外,DeepSeek R1還存在“無限思考”的問題,經(jīng)常無法在達(dá)到32768 token上下文輸出限制前完成推理。
3. 模型“故障”模式:放棄、無限思考和異常不確定性
研究揭示了新的模型“故障”模式,例如DeepSeek R1的“放棄”行為和“無限思考”狀態(tài)。 此外,模型還表現(xiàn)出異常的不確定性,可能會(huì)反復(fù)修改答案,或者在找到正確答案后仍繼續(xù)探索其他可能性。研究人員發(fā)現(xiàn),推理長度與準(zhǔn)確率的關(guān)系并非線性正相關(guān),在輸出約10000個(gè)token后,繼續(xù)推理對提升準(zhǔn)確率的幫助不大。對于R1來說,在輸出約3000 token時(shí)就開始超過Gemini Thinking的表現(xiàn)。
4. 網(wǎng)友熱議:對“推理”定義的爭議
這項(xiàng)研究在Hacker News上引發(fā)熱烈討論。一些網(wǎng)友質(zhì)疑該研究是否真正考察了模型的“推理”能力,認(rèn)為解決這些問題更依賴于對特定知識的記憶和檢索,而非真正的邏輯推理。他們認(rèn)為,如果問題是多項(xiàng)選擇的,那么測試才更能體現(xiàn)推理能力。
5. 研究意義與未來方向
盡管存在爭議,這項(xiàng)研究仍然具有重要的意義。它提供了一個(gè)新的基準(zhǔn)測試集,可以更有效地評估大語言模型的推理能力,并揭示了一些新的模型“故障”模式。未來研究可以進(jìn)一步探索如何改進(jìn)模型的推理機(jī)制,例如,開發(fā)更有效的推理時(shí)機(jī)控制機(jī)制,以避免模型陷入“無限思考”狀態(tài),并提高模型的推理效率和準(zhǔn)確性。
總而言之,這項(xiàng)研究為大語言模型的推理能力評估提供了新的視角和方法,也引發(fā)了對“推理”定義和模型評估方法的深入思考。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號