打臉！GPT-4o輸出長度8k都勉強，陳丹琦團隊新基準測試：所有模型輸出都低于標稱長度

LLM生成長段回復的能力還有待加強

原標題：打臉！GPT-4o輸出長度8k都勉強，陳丹琦團隊新基準測試：所有模型輸出都低于標稱長度
文章來源：量子位
內容字數：5290字

長上下文大模型能力再評估：32K tokens的“水分”與LONGPROC基準

近期，陳丹琦團隊提出的全新基準測試工具LONGPROC，對現有長上下文大模型（LLM）的能力提出了質疑。盡管許多大模型宣稱能輸出32K tokens的文本，但實際表現卻大打折扣。LONGPROC專注于評估模型處理復雜信息并生成長文本的能力，實驗結果顯示，即使是GPT-4o等頂尖模型，在處理8K tokens的復雜任務時也性能下降明顯，存在“幻覺”等問題。

1. LONGPROC基準：更嚴格的測試標準

現有基準主要關注長上下文記憶，而忽略了模型整合分散信息、生成長文本的能力。LONGPROC基準包含六個復雜任務，要求模型輸出超過1K tokens，并提供確定性解決方案，更全面地評估模型的長上下文處理能力。這六個任務分別是：

HTML到TSV：從HTML頁面提取信息并格式化為表格。
偽代碼生成代碼：將偽代碼翻譯成C++代碼。
路徑遍歷：在公共交通網絡中尋找路徑。
Theory-of-Mind跟蹤：跟蹤故事中對象位置的思想變化。
Countdown游戲：使用四個數字和基本算術操作找到目標數字。
旅行規劃：生成滿足多種約束的多城市旅行計劃。

LONGPROC 基準不僅考察輸出長度，還關注信息獲取方式、演繹推理和搜索能力等方面。

2. 實驗結果：模型性能普遍下降

實驗涵蓋17個模型，包括GPT-4o、Claude 3.5、Gemini 1.5等閉源模型和多個開源模型。結果顯示，所有模型在長程序生成任務中都表現出顯著的性能下降。即使是GPT-4o，在8K tokens的任務中也難以保持穩定性。開源模型普遍表現不佳，而中等規模的開源模型在低難度任務上與GPT-4o表現接近，但在某些特定8K任務中甚至超越了GPT-4o。

3. 模型表現與任務類型相關

模型性能與任務類型密切相關。需要更長推理鏈的任務（如Theory-of-Mind跟蹤、Countdown游戲和旅行規劃）導致模型性能下降更為顯著。GPT-4o等模型的準確率在這些任務現直線下降。

4. 與人類能力的差距

與人類表現相比，當前模型仍存在顯著差距。例如，在Countdown游戲中，人類解決了10個問題，而GPT-4o僅解決7個。

5. 結論與未來方向

LONGPROC 基準有效評估了模型在長程序生成任務中的表現，揭示了即使是最先進的模型，在生成連貫的長文本方面仍有很大的改進空間。尤其是在8K tokens的任務中，大型模型表現不佳，這將是未來LLM研究的重要方向。

6. 論文作者

論文一作是清華校友葉曦（Xi Ye），目前是普林斯頓大學博士后研究員，并將于2025年7月加入阿爾伯塔大學擔任助理教授。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # GPT-4輸出長度限制 # 基準測試模型評估 # 大模型輸出長度偏差 # 超長文本生成 # 陳丹琦團隊

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

打臉！GPT-4o輸出長度8k都勉強，陳丹琦團隊新基準測試：所有模型輸出都低于標稱長度

LLM生成長段回復的能力還有待加強

長上下文大模型能力再評估：32K tokens的“水分”與LONGPROC基準

1. LONGPROC基準：更嚴格的測試標準

2. 實驗結果：模型性能普遍下降

3. 模型表現與任務類型相關

4. 與人類能力的差距

5. 結論與未來方向

6. 論文作者

聯系作者

ChatGPT全年更新大總結！重看「大模型風向標」進化之路

“標王”科大訊飛發布推理模型！算力全國產，數學能力國內第一，驚艷一線教師

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

打臉！GPT-4o輸出長度8k都勉強，陳丹琦團隊新基準測試：所有模型輸出都低于標稱長度

LLM生成長段回復的能力還有待加強

長上下文大模型能力再評估：32K tokens的“水分”與LONGPROC基準

1. LONGPROC基準：更嚴格的測試標準

2. 實驗結果：模型性能普遍下降

3. 模型表現與任務類型相關

4. 與人類能力的差距

5. 結論與未來方向

6. 論文作者

聯系作者

ChatGPT全年更新大總結！重看「大模型風向標」進化之路

“標王”科大訊飛發布推理模型！算力全國產，數學能力國內第一，驚艷一線教師

相關文章

暫無評論

ChatGPT

玩虛擬模特？

打臉！GPT-4o輸出長度8k都勉強，陳丹琦團隊新基準測試：所有模型輸出都低于標稱長度

ChatGPT全年更新大總結！重看「大模型風向標」進化之路

“標王”科大訊飛發布推理模型！算力全國產，數學能力國內第一，驚艷一線教師

玩虛擬模特？