標簽:視覺

多模態大模型線上閉門會:通義實驗室/港中文/港科大三位學者主講ControlLLM、LLaMA-VID和mPLUG-DocOwl

智猩猩,由智東西公開課升級而來,定位硬科技講解與服務平臺,提供講座、線上閉門會、公開課、在線研討會、峰會等線上線下產品。 「線上閉門會」由智猩猩全新...
閱讀原文

AI解讀視頻張口就來?這種「幻覺」難題Vista-LLaMA給解決了

機器之心專欄 機器之心編輯部Vista-LLaMA 在處理長視頻內容方面的顯著優勢,為視頻分析領域帶來了新的解決框架。近年來,大型語言模型如 GPT、GLM 和 LLaMA ...
閱讀原文

一句話精準視頻片段定位!清華新方法拿下SOTA|已開源

陳厚倫 投稿量子位 | 公眾號 QbitAI只需一句話描述,就能在一大段視頻中定位到對應片段! 比如描述“一個人一邊下樓梯一邊喝水”,通過視頻畫面和腳步聲的匹配...
閱讀原文

GPT-4V開源平替!清華浙大領銜,LLaVA、CogAgent等開源視覺模型大爆發

新智元報道編輯:Aeneas 【新智元導讀】GPT-4V的開源替代方案來了!極低成本,性能卻類似,清華、浙大等中國頂尖學府,為我們提供了性能優異的GPT-4V開源平替...
閱讀原文

驍龍888實時運行,美團、浙大等打造全流程移動端多模態大模型MobileVLM

機器之心報道 機器之心編輯部大模型涌向移動端的浪潮愈演愈烈,終于有人把多模態大模型也搬到了移動端上。近日,美團、浙大等推出了能夠在移動端部署的多模態...
閱讀原文

清華大學與智譜 AI 聯合推出 CogAgent:基于多模態大模型的 GUI Agent,具備視覺問答、視覺定位等能力

作者 | 凌敏 近日,清華 KEG 實驗室與智譜 AI 聯合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Ground...
閱讀原文

ViT-22B被取代了!商湯開源60億視覺參數大模型InternVL刷爆多模態榜單!

論文鏈接: https://arxiv.org/abs/2312.14238開源代碼: https://github.com/OpenGVLab/InternVL01引言大型語言模型(LLMs)在開放世界語言任務中展現出令人...
閱讀原文

ImageNet的故事:李飛飛自傳《我所見的世界》中文節選

新智元報道來源:Web3天空之城 編輯:好困 【新智元導讀】《The Worlds I See》是李飛飛的第一人稱敘述,它從內部記錄了這個世紀的關鍵時刻,清晰并激動人心...
閱讀原文

港中文 128 頁全球首份 Gemini vs?GPT-4V 多模態 PK 報告

2023 年 12 月 6 日,谷歌發布了最新一代的通用人工智能大模型 Gemini,并報告在多項測試中取得了最先進的結果,甚至在 MMLU 測試中首次取得了超過人類專家的...
閱讀原文

OCR終結了?曠視提出支持文檔級OCR的多模態大模型,支持中英文,已開源!

國科大&曠視團隊 投稿量子位 | 公眾號 QbitAI想將一份文檔圖片轉換成Markdown格式? 以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗...
閱讀原文

阿里mPLUG-Owl新升級,魚與熊掌兼得,模態協同實現MLLM新SOTA

機器之心專欄 機器之心編輯部OpenAI GPT-4V 和 Google Gemini 都展現了非常強的多模態理解能力,推動了多模態大模型(MLLM)快速發展,MLLM 成為了現在業界最...
閱讀原文

騰訊發布實體任務規劃基準,GPT-4V也頻頻出錯!邁向大模型與物理世界交互!

夕小瑤科技說 原創作者 | 智商掉了一地、Python多模態大型語言模型(MLLM)目前主要通過數字化的方式與信息世界進行交互,涉及自然語言處理、計算機視覺和多...
閱讀原文

谷歌Gemini扳回一局!多模態能力和GPT-4V不分伯仲|港中文128頁全面測評報告

happy投稿量子位 | 公眾號 QbitAI谷歌扳回一局! 在Gemini開放API不到一周的時間,港中文等機構就完成評測,聯合發布了多達128頁的報告,結果顯示: 在37個視...
閱讀原文

再見,湯曉鷗

一位偉大而豐盈的靈魂離去了。▲CVPR 2009最佳論文獎獲獎論文截圖 這是中國人工智能學術界一篇具有里程碑領域的論文——2009年,世界計算機視覺頂級學術會CVPR創...
閱讀原文

清華提出ViLa,揭秘 GPT-4V 在機器人視覺規劃中的潛力

夕小瑤科技說 原創作者 | 智商掉了一地、兔子醬人類在面對簡潔的語言指令時,可以根據上下文進行一連串的操作。對于“拿一罐可樂”的指令,若可樂近在眼前,下...
閱讀原文
1121314151620