谷歌Gemini扳回一局！多模態能力和GPT-4V不分伯仲｜港中文128頁全面測評報告

AIGC動態2年前 (2023)發布量子位

AIGC動態歡迎閱讀

原標題：谷歌Gemini扳回一局！多模態能力和GPT-4V不分伯仲｜港中文128頁全面測評報告
關鍵字：報告,能力,模型,任務,視覺
文章來源：量子位
內容字數：7085字

內容摘要：

happy投稿量子位 | 公眾號 QbitAI谷歌扳回一局！
在Gemini開放API不到一周的時間，港中文等機構就完成評測，聯合發布了多達128頁的報告，結果顯示：
在37個視覺理解任務上，Gemini-Pro表現出了和GPT-4V相當的能力。
在多模態專有基準MME上，Gemini-Pro的感知和認知綜合表現則直接獲得了1933.4的高分，超越GPT-4V（1926.6）。
此前，CMU測評發現Gemini-Pro的綜合能力居然和GPT-3.5差不多。
現在，在多模態這個一大主推的賣點上，Gemini-Pro可算是扳回一局。
那么具體如何？
測評報告一共128頁，咱們就挑重點來看。
Gemini-Pro的首份多模態能力報告來了這份測評主要是對Gemini-Pro的視覺理解能力進行評估。
一共涵蓋基礎感知、高級認知、挑戰性視覺任務和各種專家能力四大領域，在37個細分任務項上進行定性比較。
定量評估則在專為多模態大語言模型專門設計的評測基準MME上展開。
首先來看定量測試結果。
MME上綜合表現比GPT-4V強MME基準包含兩大類任務。
一個是感知，涵蓋目標存在性判斷、物體計數、位置關

原文鏈接：谷歌Gemini扳回一局！多模態能力和GPT-4V不分伯仲｜港中文128頁全面測評報告