AI科學家太多，誰靠譜一試便知！普林斯頓新基準CORE-Bench：最強模型僅有21%準確率

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：AI科學家太多，誰靠譜一試便知！普林斯頓新基準CORE-Bench：最強模型僅有21%準確率
關鍵字：報告,任務,智能,基準,研究人員
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】普林斯頓大學新發布的CORE-Bench基準測試，通過270個基于90篇跨學科科學論文的任務，可評估AI智能體在計算可重復性方面的表現，最簡單任務的準確率可以達到60%，最難任務準確率僅有21%大模型的能力越來越強，用戶在一些重要的任務中也可以依賴大模型，比如說輔助做科研。
不過現有科研輔助相關的基準測試都太簡單，跟現實世界的任務差距還是比較大的。
最近，普林斯頓大學的研究人員發布了一個新的基準測試CORE-Bench（Computational Reproducibility Agent Benchmark，計算可重復性智能體基準測試），主要關注模型在處理科研問題中的計算可重復/可復現（computational reproducibility）的問題。論文鏈接：https://arxiv.org/pdf/2409.11363v1
對其他論文進行重復是科研活動的基礎，研究人員需要使用提供的代碼和數據來對論文中報告的結果進行復現。
CORE-Bench基于90篇科學論文，包含了270個任務，覆蓋了三個學科（計算機科學、社會科學和醫學），其任務被劃

原文鏈接：AI科學家太多，誰靠譜一試便知！普林斯頓新基準CORE-Bench：最強模型僅有21%準確率