自動化、可復現，基于大語言模型群體智能的多維評估基準Decentralized Arena來了

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：自動化、可復現，基于大語言模型群體智能的多維評估基準Decentralized Arena來了
關鍵字：模型,報告,維度,問題,基準
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.comMaitrix.org 是由 UC San Diego, John Hopkins University, CMU， MBZUAI 等學術機構學者組成的開源組織，致力于發展大語言模型 (LLM)、世界模型 (World Model)、智能體模型 (Agent Model) 的技術以構建 AI 驅動的現實。Maitrix.org 此前成功開發了 Pandora 視頻-語言世界模型、LLM Reasoners，以及 MMToM-QA 評測（ACL 2024 Outstanding Paper Award）。
研究者們已經并陸續構建了成千上萬的大規模語言模型（LLM），這些模型的各項能力（如推理和生成）也越來越強。因此，在多樣的應用場景中對其進行性能基準測試已成為了

原文鏈接：自動化、可復現，基于大語言模型群體智能的多維評估基準Decentralized Arena來了