PaperBench

PaperBench – OpenAI 開源的 AI 智能體評測基準

PaperBench

PaperBench是什么

PaperBench是由OpenAI推出的開源AI智能體評測基準，旨在評估智能體復現頂級學術論文的能力。它要求智能體在理解論文內容、編寫代碼及執行實驗等環節中，展示出理論與實踐的綜合自動化能力。PaperBench涵蓋了8316個評分節點，采用層次化評分標準，通過自動評分系統提升評測效率。評估結果顯示，當前主流AI模型在復現任務中的表現尚不及頂尖機器學習專家，表明智能體在長期任務規劃和執行方面仍存在不足之處。

PaperBench的主要功能

評估智能體能力：全面考察智能體復現頂級機器學習論文的能力，涵蓋理解、編碼和實驗執行等方面。
自動評分：利用自動評分系統提升評分效率，確保評估準確性并經過基準測試驗證。
確保公平性：通過設定規則限制智能體的資源使用，確保評估結果基于其自身能力。
降低參與門檻：提供輕量級評估變體，簡化評估流程，從而吸引更多研究者參與其中。
標準化測試環境：在統一的Docker容器中運行智能體，確保測試條件的一致性和可重復性。

PaperBench的技術原理

任務模塊：PaperBench的核心在于任務模塊，明確規定智能體需要完成的具體任務，包括理解論文的貢獻、開發代碼庫和成功執行實驗，全面覆蓋理論與實踐的各個環節。
評分標準：評分標準采用層次化樹形結構，將評分節點細分為8316個任務，確保評分過程深入每一個細節。基于大模型的自動評分系統，依據評分標準自動評估智能體的復現嘗試，并與人類專家評分結果進行對比，以驗證其準確性。
規則模塊：規則模塊規定智能體在執行任務時所使用的資源，確保智能體的能力建立在自身理解和實現之上，而非依賴現有代碼或資源。
測試環境：每個被測試的智能體在運行Ubuntu 24.04的Docker容器中執行任務，以保證環境的一致性和可重復性。容器可訪問單個A10 GPU，并具備聯網能力，提供HuggingFace和OpenAI API的密鑰，確保智能體能夠順利進行操作。
智能體設置：提供多種智能體設置，如SimpleAgent和IterativeAgent，通過調整系統提示和工具配置，研究不同設置對智能體性能的影響。IterativeAgent要求智能體每次僅執行一步操作，移除提交工具，確保智能體在整個可用時間內持續工作。