AIGC動態歡迎閱讀
原標題:GPT-4o成為全領域SOTA!基準測試遠超Gemini和Claude,多模態功能遠超GPT-4
關鍵字:報告,模型,能力,基準,測試
文章來源:新智元
內容字數:6334字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】OpenAI半小時的發布會讓很多人第一反應是直呼「失望」,但隨著官網放出更多demo以及更多網友開始試用,大家才發現GPT-4o真的不可小覷,不僅在各種基準測試中穩拿第一,而且有很多發布會從未提及的驚艷功能。OpenAI在發布會上官宣GPT-4o之后,各路大神也開始了對這個新模型的測評,結果就是,GPT-4o在多項基準測試上都展現了SOTA的實力。
別家發布會都在畫餅,OpanAI卻總能開出一種「欲揚先抑」的效果,驚喜全在發布會之后。
基準測試結果首先,在LMSys機器人競技場上的ELO分數排行上,GPT-4o套了一個GPT2機器人的馬甲,以一騎絕塵的態勢名列第一,評分為1310,和第二名GPT-4-turbo的1253分相比,呈現斷檔式的提升。
再來看多模態領域的基準Reka Vibe-Eval,這也是一個很有挑戰性的測試,由 269 個超高質量圖像文本對組成,用于評估多模態語言模型的性能。
在Reka Vibe-Eval 分數的排行榜上,GPT-4o再次榮登第一,相比谷歌新發布的Gemini Pro 1.5高出了將近三個百分點。
而且
原文鏈接:GPT-4o成為全領域SOTA!基準測試遠超Gemini和Claude,多模態功能遠超GPT-4
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...