AIGC動態歡迎閱讀
原標題:自動化、可復現,基于大語言模型群體智能的多維評估基準Decentralized Arena來了
關鍵字:模型,報告,維度,問題,基準
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.comMaitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等學術機構學者組成的開源組織,致力于發展大語言模型 (LLM)、世界模型 (World Model)、智能體模型 (Agent Model) 的技術以構建 AI 驅動的現實。Maitrix.org 此前成功開發了 Pandora 視頻-語言世界模型、LLM Reasoners,以及 MMToM-QA 評測(ACL 2024 Outstanding Paper Award)。
研究者們已經并陸續構建了成千上萬的大規模語言模型(LLM),這些模型的各項能力(如推理和生成)也越來越強。因此,在多樣的應用場景中對其進行性能基準測試已成為了
原文鏈接:自動化、可復現,基于大語言模型群體智能的多維評估基準Decentralized Arena來了
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...