AIGC動態歡迎閱讀
原標題:首個多模態視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉三次
關鍵字:視頻,數據,字幕,類型,問題
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:alan 好困
【新智元導讀】近日,首個多模態LLM視頻分析綜合評估基準Video-MME誕生!在這場全新的考試中,Gemini 1.5 Pro一路遙遙領先,谷歌首席科學家Jeff Dean更是愉快地連續轉了3次推。大模型性能哪家強?GPT-4一家常霸榜。
基準測試全擅長,競技場上見真章。
不過近日,谷歌的Gemini終于揚眉吐氣了一把,在全新的、更復雜的多模態考試中大獲全勝,全面超越了GPT-4o。
Jeff Dean表示:已閱,很贊。這就是來自中科大,廈大,港大,北大,港中文和華師大的研究者聯合奉獻的,世界上首個多模態LLM視頻分析綜合評估基準——Video-MME。
論文地址:https://arxiv.org/pdf/2405.21075
項目地址:https://video-mme.github.io/
在前往AGI的道路上,多模態大語言模型(MLLM)顯然成為當前的焦點。
不久前出世的GPT-4o,就在多模態的表現上技驚四座;同時,偏愛谷歌「雙子座」的網友也不在少數。不過之前的相關基準測試,主要關注LLM在靜態圖像理解方面的能力。
而對于現實世界來說,處理
原文鏈接:首個多模態視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉三次
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...