能力與可信度可以兼得？GPT-4、Gemini等多模態大模型評測報告來了

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：能力與可信度可以兼得？GPT-4、Gemini等多模態大模型評測報告來了
關鍵字：能力,模型,報告,文字,表示
文章來源：機器之心
內容字數：12179字

內容摘要：

機器之心專欄
機器之心編輯部2023 年我們正見證著多模態大模型的跨越式發展，多模態大語言模型（MLLM）已經在文本、代碼、圖像、視頻等多模態內容處理方面表現出了空前的能力，成為技術新浪潮。以 Llama 2，Mixtral 為代表的大語言模型（LLM），以 GPT-4、Gemini、LLaVA 為代表的多模態大語言模型跨越式發展。然而，它們的能力缺乏細致且偏應用級的評測，可信度和因果推理能力的對比也尚存空白。
近日，上海人工智能實驗室的學者們與北京航空航天大學、復旦大學、學、新加坡國立大學、悉尼大學和香港中文大學（深圳）等院校合作發布 308 頁詳細報告，對 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 等熱門的 LLM 和 MLLM 進行評測。根據 4 種模態（文本、代碼、圖像及視頻）和 3 種能力（泛化能力、安全可信能力和因果推理能力）形成了 12 個評分項，并通過 230 個生動案例，揭示了 14 個實證性的發現。*作者順序按照字母順序排名
評測報告：https://arxiv.org/abs/2401.15

原文鏈接：能力與可信度可以兼得？GPT-4、Gemini等多模態大模型評測報告來了