標簽：視覺

多模態大模型線上閉門會：通義實驗室/港中文/港科大三位學者主講ControlLLM、LLaMA-VID和mPLUG-DocOwl

智猩猩，由智東西公開課升級而來，定位硬科技講解與服務平臺，提供講座、線上閉門會、公開課、在線研討會、峰會等線上線下產品。「線上閉門會」由智猩猩全新...

閱讀原文

AIGC動態

2年前 (2024)

AI解讀視頻張口就來？這種「幻覺」難題Vista-LLaMA給解決了

機器之心專欄機器之心編輯部Vista-LLaMA 在處理長視頻內容方面的顯著優勢，為視頻分析領域帶來了新的解決框架。近年來，大型語言模型如 GPT、GLM 和 LLaMA ...

閱讀原文

AIGC動態

2年前 (2024)

一句話精準視頻片段定位！清華新方法拿下SOTA｜已開源

陳厚倫投稿量子位 | 公眾號 QbitAI只需一句話描述，就能在一大段視頻中定位到對應片段！比如描述“一個人一邊下樓梯一邊喝水”，通過視頻畫面和腳步聲的匹配...

閱讀原文

AIGC動態

2年前 (2024)

GPT-4V開源平替！清華浙大領銜，LLaVA、CogAgent等開源視覺模型大爆發

新智元報道編輯：Aeneas 【新智元導讀】GPT-4V的開源替代方案來了！極低成本，性能卻類似，清華、浙大等中國頂尖學府，為我們提供了性能優異的GPT-4V開源平替...

閱讀原文

AIGC動態

2年前 (2024)

驍龍888實時運行，美團、浙大等打造全流程移動端多模態大模型MobileVLM

機器之心報道機器之心編輯部大模型涌向移動端的浪潮愈演愈烈，終于有人把多模態大模型也搬到了移動端上。近日，美團、浙大等推出了能夠在移動端部署的多模態...

閱讀原文

AIGC動態

2年前 (2024)

清華大學與智譜 AI 聯合推出 CogAgent：基于多模態大模型的 GUI Agent，具備視覺問答、視覺定位等能力

作者 | 凌敏近日，清華 KEG 實驗室與智譜 AI 聯合推出了視覺 GUI Agent——CogAgent，CogAgent 是一個通用的視覺理解大模型，具備視覺問答、視覺定位（Ground...

閱讀原文

AIGC動態

2年前 (2024)

ViT-22B被取代了！商湯開源60億視覺參數大模型InternVL刷爆多模態榜單！

論文鏈接： https://arxiv.org/abs/2312.14238開源代碼： https://github.com/OpenGVLab/InternVL01引言大型語言模型（LLMs）在開放世界語言任務中展現出令人...

閱讀原文

AIGC動態

2年前 (2024)

ImageNet的故事：李飛飛自傳《我所見的世界》中文節選

新智元報道來源：Web3天空之城編輯：好困【新智元導讀】《The Worlds I See》是李飛飛的第一人稱敘述，它從內部記錄了這個世紀的關鍵時刻，清晰并激動人心...

閱讀原文

AIGC動態

2年前 (2023)

港中文 128 頁全球首份 Gemini vs?GPT-4V 多模態 PK 報告

2023 年 12 月 6 日，谷歌發布了最新一代的通用人工智能大模型 Gemini，并報告在多項測試中取得了最先進的結果，甚至在 MMLU 測試中首次取得了超過人類專家的...

閱讀原文

AIGC動態

2年前 (2023)

OCR終結了？曠視提出支持文檔級OCR的多模態大模型，支持中英文，已開源！

國科大&曠視團隊投稿量子位 | 公眾號 QbitAI想將一份文檔圖片轉換成Markdown格式？以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗...

閱讀原文

AIGC動態

2年前 (2023)

阿里mPLUG-Owl新升級，魚與熊掌兼得，模態協同實現MLLM新SOTA

機器之心專欄機器之心編輯部OpenAI GPT-4V 和 Google Gemini 都展現了非常強的多模態理解能力，推動了多模態大模型（MLLM）快速發展，MLLM 成為了現在業界最...

閱讀原文

AIGC動態

2年前 (2023)

騰訊發布實體任務規劃基準，GPT-4V也頻頻出錯！邁向大模型與物理世界交互！

夕小瑤科技說原創作者 | 智商掉了一地、Python多模態大型語言模型（MLLM）目前主要通過數字化的方式與信息世界進行交互，涉及自然語言處理、計算機視覺和多...

閱讀原文

AIGC動態

2年前 (2023)

谷歌Gemini扳回一局！多模態能力和GPT-4V不分伯仲｜港中文128頁全面測評報告

happy投稿量子位 | 公眾號 QbitAI谷歌扳回一局！在Gemini開放API不到一周的時間，港中文等機構就完成評測，聯合發布了多達128頁的報告，結果顯示：在37個視...

閱讀原文

AIGC動態

2年前 (2023)

再見，湯曉鷗

一位偉大而豐盈的靈魂離去了。▲CVPR 2009最佳論文獎獲獎論文截圖這是中國人工智能學術界一篇具有里程碑領域的論文——2009年，世界計算機視覺頂級學術會CVPR創...

閱讀原文

AIGC動態

2年前 (2023)

清華提出ViLa，揭秘 GPT-4V 在機器人視覺規劃中的潛力

夕小瑤科技說原創作者 | 智商掉了一地、兔子醬人類在面對簡潔的語言指令時，可以根據上下文進行一連串的操作。對于“拿一罐可樂”的指令，若可樂近在眼前，下...

閱讀原文

AIGC動態

2年前 (2023)

1…12 131415 16…20