LLM生成長段回復的能力還有待加強
原標題:打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度
文章來源:量子位
內容字數:5290字
長上下文大模型能力再評估:32K tokens的“水分”與LONGPROC基準
近期,陳丹琦團隊提出的全新基準測試工具LONGPROC,對現有長上下文大模型(LLM)的能力提出了質疑。盡管許多大模型宣稱能輸出32K tokens的文本,但實際表現卻大打折扣。LONGPROC專注于評估模型處理復雜信息并生成長文本的能力,實驗結果顯示,即使是GPT-4o等頂尖模型,在處理8K tokens的復雜任務時也性能下降明顯,存在“幻覺”等問題。
1. LONGPROC基準:更嚴格的測試標準
現有基準主要關注長上下文記憶,而忽略了模型整合分散信息、生成長文本的能力。LONGPROC基準包含六個復雜任務,要求模型輸出超過1K tokens,并提供確定性解決方案,更全面地評估模型的長上下文處理能力。這六個任務分別是:
- HTML到TSV:從HTML頁面提取信息并格式化為表格。
- 偽代碼生成代碼:將偽代碼翻譯成C++代碼。
- 路徑遍歷:在公共交通網絡中尋找路徑。
- Theory-of-Mind跟蹤:跟蹤故事中對象位置的思想變化。
- Countdown游戲:使用四個數字和基本算術操作找到目標數字。
- 旅行規劃:生成滿足多種約束的多城市旅行計劃。
LONGPROC 基準不僅考察輸出長度,還關注信息獲取方式、演繹推理和搜索能力等方面。
2. 實驗結果:模型性能普遍下降
實驗涵蓋17個模型,包括GPT-4o、Claude 3.5、Gemini 1.5等閉源模型和多個開源模型。結果顯示,所有模型在長程序生成任務中都表現出顯著的性能下降。即使是GPT-4o,在8K tokens的任務中也難以保持穩定性。開源模型普遍表現不佳,而中等規模的開源模型在低難度任務上與GPT-4o表現接近,但在某些特定8K任務中甚至超越了GPT-4o。
3. 模型表現與任務類型相關
模型性能與任務類型密切相關。需要更長推理鏈的任務(如Theory-of-Mind跟蹤、Countdown游戲和旅行規劃)導致模型性能下降更為顯著。GPT-4o等模型的準確率在這些任務現直線下降。
4. 與人類能力的差距
與人類表現相比,當前模型仍存在顯著差距。例如,在Countdown游戲中,人類解決了10個問題,而GPT-4o僅解決7個。
5. 結論與未來方向
LONGPROC 基準有效評估了模型在長程序生成任務中的表現,揭示了即使是最先進的模型,在生成連貫的長文本方面仍有很大的改進空間。尤其是在8K tokens的任務中,大型模型表現不佳,這將是未來LLM研究的重要方向。
6. 論文作者
論文一作是清華校友葉曦(Xi Ye),目前是普林斯頓大學博士后研究員,并將于2025年7月加入阿爾伯塔大學擔任助理教授。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破