AIGC動態歡迎閱讀
原標題:跨平臺多模態智能體基準測試來了!但全班第一只考了35.26分
關鍵字:任務,平臺,基準,測試,系統
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:alan 好困
【新智元導讀】近日,來自CAMEL AI、KAUST、CMU、斯坦福、清華等高校和機構的研究人員推出了一個跨平臺的多模態智能體基準測試,全面覆蓋了Agent系統的真實工作場景。生成式人工智能取得更快進展的一個障礙是評估。
——吳恩達
假如你目前正在使用和研究類似CAMEL的多智能體系統,現在已經有了扮演研究者的Agent和負責寫論文的Agent,再添加一個事實核查Agent會改善結果嗎?
如果無法有效評估這種更改的影響,就很難確定前進的方向。
當然,從另一個角度來說,有一個令人信服的基準測試用來給大家刷分也是很重要的(狗頭)。
近日,來自CAMEL AI、KAUST、清華等高校和機構的研究人員推出了一個跨平臺的多模態智能體基準測試——CRAB。
值得一提的是,CAMEL AI團隊最早做出了基于大語言模型的多智能體開源項目:https://www.camel-ai.org/、https://github.com/camel-ai/camel。
論文地址:https://arxiv.org/abs/2407.01511
這個Benchmark涉及當前AI應
原文鏈接:跨平臺多模態智能體基準測試來了!但全班第一只考了35.26分
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...