谷歌Gemini扳回一局!多模態(tài)能力和GPT-4V不分伯仲|港中文128頁全面測評報告
AIGC動態(tài)歡迎閱讀
原標題:谷歌Gemini扳回一局!多模態(tài)能力和GPT-4V不分伯仲|港中文128頁全面測評報告
關(guān)鍵字:報告,能力,模型,任務(wù),視覺
文章來源:量子位
內(nèi)容字數(shù):7085字
內(nèi)容摘要:
happy投稿量子位 | 公眾號 QbitAI谷歌扳回一局!
在Gemini開放API不到一周的時間,港中文等機構(gòu)就完成評測,聯(lián)合發(fā)布了多達128頁的報告,結(jié)果顯示:
在37個視覺理解任務(wù)上,Gemini-Pro表現(xiàn)出了和GPT-4V相當?shù)哪芰Α?br />在多模態(tài)專有基準MME上,Gemini-Pro的感知和認知綜合表現(xiàn)則直接獲得了1933.4的高分,超越GPT-4V(1926.6)。
此前,CMU測評發(fā)現(xiàn)Gemini-Pro的綜合能力居然和GPT-3.5差不多。
現(xiàn)在,在多模態(tài)這個一大主推的賣點上,Gemini-Pro可算是扳回一局。
那么具體如何?
測評報告一共128頁,咱們就挑重點來看。
Gemini-Pro的首份多模態(tài)能力報告來了這份測評主要是對Gemini-Pro的視覺理解能力進行評估。
一共涵蓋基礎(chǔ)感知、高級認知、挑戰(zhàn)性視覺任務(wù)和各種專家能力四大領(lǐng)域,在37個細分任務(wù)項上進行定性比較。
定量評估則在專為多模態(tài)大語言模型專門設(shè)計的評測基準MME上展開。
首先來看定量測試結(jié)果。
MME上綜合表現(xiàn)比GPT-4V強MME基準包含兩大類任務(wù)。
一個是感知,涵蓋目標存在性判斷、物體計數(shù)、位置關(guān)
原文鏈接:谷歌Gemini扳回一局!多模態(tài)能力和GPT-4V不分伯仲|港中文128頁全面測評報告
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破