GPT-4o成為全領(lǐng)域SOTA!基準(zhǔn)測(cè)試遠(yuǎn)超Gemini和Claude,多模態(tài)功能遠(yuǎn)超GPT-4
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4o成為全領(lǐng)域SOTA!基準(zhǔn)測(cè)試遠(yuǎn)超Gemini和Claude,多模態(tài)功能遠(yuǎn)超GPT-4
關(guān)鍵字:報(bào)告,模型,能力,基準(zhǔn),測(cè)試
文章來源:新智元
內(nèi)容字?jǐn)?shù):6334字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部
【新智元導(dǎo)讀】OpenAI半小時(shí)的發(fā)布會(huì)讓很多人第一反應(yīng)是直呼「失望」,但隨著官網(wǎng)放出更多demo以及更多網(wǎng)友開始試用,大家才發(fā)現(xiàn)GPT-4o真的不可小覷,不僅在各種基準(zhǔn)測(cè)試中穩(wěn)拿第一,而且有很多發(fā)布會(huì)從未提及的驚艷功能。OpenAI在發(fā)布會(huì)上官宣GPT-4o之后,各路大神也開始了對(duì)這個(gè)新模型的測(cè)評(píng),結(jié)果就是,GPT-4o在多項(xiàng)基準(zhǔn)測(cè)試上都展現(xiàn)了SOTA的實(shí)力。
別家發(fā)布會(huì)都在畫餅,OpanAI卻總能開出一種「欲揚(yáng)先抑」的效果,驚喜全在發(fā)布會(huì)之后。
基準(zhǔn)測(cè)試結(jié)果首先,在LMSys機(jī)器人競(jìng)技場(chǎng)上的ELO分?jǐn)?shù)排行上,GPT-4o套了一個(gè)GPT2機(jī)器人的馬甲,以一騎絕塵的態(tài)勢(shì)名列第一,評(píng)分為1310,和第二名GPT-4-turbo的1253分相比,呈現(xiàn)斷檔式的提升。
再來看多模態(tài)領(lǐng)域的基準(zhǔn)Reka Vibe-Eval,這也是一個(gè)很有挑戰(zhàn)性的測(cè)試,由 269 個(gè)超高質(zhì)量圖像文本對(duì)組成,用于評(píng)估多模態(tài)語(yǔ)言模型的性能。
在Reka Vibe-Eval 分?jǐn)?shù)的排行榜上,GPT-4o再次榮登第一,相比谷歌新發(fā)布的Gemini Pro 1.5高出了將近三個(gè)百分點(diǎn)。
而且
原文鏈接:GPT-4o成為全領(lǐng)域SOTA!基準(zhǔn)測(cè)試遠(yuǎn)超Gemini和Claude,多模態(tài)功能遠(yuǎn)超GPT-4
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。