標簽:視覺

Mistral多模態大模型來了!120億參數,原生支持任意大小/數量圖像,公司估值已達420億

明敏 發自 凹非寺量子位 | 公眾號 QbitAIMistral的多模態大模型來了! Pixtral 12B正式發布,同時具備語言和視覺處理能力。 它建立在文本模型Nemo 12B基礎上...
閱讀原文

Mistral 發布首款多模態模型,挑戰 OpenAI等競爭對手

點擊上方藍字關注我們“法國 AI 初創公司 Mistral 發布其首款多模態模型 Pixtral 12B,挑戰 OpenAI 和 Anthropic 等競爭對手。法國初創公司 Mistral AI 正式發...
閱讀原文

字節跳動馮佳時:大語言模型在計算機視覺領域的應用、問題和我們的解法

演講嘉賓|馮佳時 編輯 |蔡芳芳 策劃 | AICon 全球人工智能開發與應用大會 近年來,大語言模型 (LLMs) 在文本理解與生成領域取得了顯著進展。然而,LLMs 在...
閱讀原文

視覺模型底座超越OpenAI,格靈深瞳開啟多模態落地的Scaling Law

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI大模型時代,有個大家普遍焦慮的問題:如何落地?往哪落地? 聚光燈下最耀眼的OpenAI,最近也先被曝出資金告急,后又尋...
閱讀原文

TPAMI 2024 | 計算機視覺中基于圖神經網絡和圖Transformers的方法和最新進展

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

3D 視覺派:斯坦福具身智能人物關系圖

蘇昊、黃其興、祁芮中臺、盧策吾、朱玉可、王鶴、王世全、弋力、莫凱淳……他們從 3D 視覺出發,改寫了機器人的故事走向。作者 | 賴文昕 陳彩嫻 編輯 | 陳彩嫻2...
閱讀原文

CVPR'24 Navsim挑戰賽冠軍方案!NVIDIA Hydra-MDP:端到端自動駕駛規劃新范式 | 公開課預告

端到端自動駕駛目前逐漸被認為是實現完全自動駕駛的最優解,受到了學術界和產業界的廣泛關注。然而,最近的研究表明,近年來涌現的不少端到端自動駕駛模型,...
閱讀原文

通義千問開源視覺語言模型 Qwen2-VL,可理解 20 分鐘以上視頻

整理 | 褚杏娟 2023 年 8 月,通義千問開源第一代視覺語言理解模型 Qwen-VL,成為開源社區最受歡迎的多模態模型之一。短短一年內,模型下載量突破 1000 萬次...
閱讀原文

阿里重磅開源Qwen2-VL:能理解超20分鐘視頻,媲美GPT-4o!

生成式AI時代最火AI芯片峰會下月來襲!9月6-7日,智猩猩發起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設有開幕式、數據中心AI芯片專場、邊緣/端側AI芯...
閱讀原文

首篇「虛擬現實+人工智能」綜述!浙大、港中深等發布AI醫療最新報告

新智元報道編輯:LRST 好困 【新智元導讀】本文對AI增強的VR在醫療應用中的技術細節、工作流程和下游應用進行了全面審視,并提出了一個系統性的分類方法,將...
閱讀原文

4秒看完2小時電影!阿里發布通用多模態大模型mPLUG-Owl3 | 開源

阿里mPLUG團隊 投稿量子位 | 公眾號 QbitAI4秒看完2小時電影,阿里團隊新成果正式亮相—— 推出通用多模態大模型mPLUG-Owl3,專門用來理解多圖、長視頻。 具體...
閱讀原文

想搞懂李飛飛的創業方向?這里有一份機器人+3D的論文清單

機器之心報道 編輯:張倩80 多篇論文搞懂「機器人+3D」研究進展。前段時間,多家媒體報道稱 ,著名 AI 學者、斯坦福大學教授李飛飛的創業公司 World Labs 在...
閱讀原文

視覺如何模型統一?牛津大學Shuyang Sun博士論文《邁向統一視覺感知》全面闡述

來源:專知 來自牛津大學Shuyang (Kevin) Sun博士論文《Towards Unified Visual Perception 》值得關注!探討統一視覺感知系統的構建。 Shuyang (Kevin) Sun ...
閱讀原文

多模態LLM視覺推理能力堪憂,浙大領銜用GPT-4合成數據構建多模態基準

新智元報道編輯:喬楊 【新智元導讀】LLM的數學推理能力缺陷得到了很多研究的關注,但最近浙大、中科院等機構的學者們提出,先進模型在視覺推理方面同樣不足...
閱讀原文

讓「GPT-4V」跑在手機上,這家中國大模型公司做到了?

對標 GPT-4V,面壁讓實時視頻理解成功“跑”在端側。作者 | 朱可軒 編輯 | 陳彩嫻 真實世界的視覺信息是流動的,而在處理流動性的視覺信息上,端側視頻理解具有...
閱讀原文
12345620