港中文 128 頁(yè)全球首份 Gemini vs?GPT-4V 多模態(tài) PK 報(bào)告

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:港中文 128 頁(yè)全球首份 Gemini vs?GPT-4V 多模態(tài) PK 報(bào)告
關(guān)鍵字:報(bào)告,模型,能力,視覺(jué),任務(wù)
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):13434字
內(nèi)容摘要:
2023 年 12 月 6 日,谷歌發(fā)布了最新一代的通用人工智能大模型 Gemini,并報(bào)告在多項(xiàng)測(cè)試中取得了最先進(jìn)的結(jié)果,甚至在 MMLU 測(cè)試中首次取得了超過(guò)人類(lèi)專(zhuān)家的成績(jī),人工智能似乎進(jìn)入 Gemini 時(shí)代。
直到北京時(shí)間上周三晚谷歌才正式開(kāi)放 Gemini Pro 版本的 API,使得用戶可以親自體驗(yàn)。Gemini 的實(shí)際多模態(tài)能力究竟如何呢?是否真如他們技術(shù)報(bào)告和宣傳視頻中展示的那樣?是否超越了 GPT-4V?和其他開(kāi)源模型相比又如何呢?
在 Gemini Pro 的 API 開(kāi)放后不到一周,港中文聯(lián)合多加單位共同公布了一份長(zhǎng)達(dá) 128 頁(yè)的評(píng)測(cè)報(bào)告,將 Gemini Pro 與目前最先進(jìn)的 GPT-4V 進(jìn)行對(duì)比,探索其是否能挑戰(zhàn) GPT-4V 的在多模態(tài)領(lǐng)域的霸主地位,并和最新的開(kāi)源大模型 SPHNIX 進(jìn)行比較,揭示開(kāi)源模型與黑盒系統(tǒng)之間的差距。
論文鏈接:https://arxiv.org/pdf/2312.12436.pdf
項(xiàng)目鏈接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Mode
原文鏈接:港中文 128 頁(yè)全球首份 Gemini vs?GPT-4V 多模態(tài) PK 報(bào)告
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:aitechtalk
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

粵公網(wǎng)安備 44011502001135號(hào)