標簽:視覺

國產多模態大模型狂飆!顏水成掛帥開源Vitron,圖像/視頻模型割裂問題

未來可探索三大方向:系統架構、用戶交互性、模態能力。 編輯|ZeR0 奔向通用人工智能,大模型又邁出一大步。 智東西4月25日報道,近日,由顏水成教授帶隊,昆...
閱讀原文

埃隆·馬斯克的人造視力能看到啥?

點擊上方藍字世界科學,再點右上角三顆痣 設為星標,從此你的世界多點科學~現年56歲的美國人布萊恩·巴薩德(Brian Bussard)曾失去視力,如今他大腦內有25塊...
閱讀原文

顏水成掛帥,奠定「通用視覺多模態大模型」終極形態!一統理解/生成/分割/編輯

新智元報道編輯:LRS 【新智元導讀】顏水成團隊聯合新加坡國立、南洋理工大學共同開源了Vitron模型,持從視覺理解到視覺生成、從低層次到高層次的一系列視覺...
閱讀原文

首個基于Mamba的MLLM來了!模型權重、訓練代碼等已全部開源

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

今日arXiv最熱NLP大模型論文:微軟發布可視思維鏈VoT,提高大模型空間想象力

夕小瑤科技說 原創作者 | 芒果 引言:思維可視化技術的探索此項研究提出了一種名為思維可視化(VoT)的技術,旨在通過可視化大型語言模型(LLMs)的推理過程來增...
閱讀原文

MLLM真能看懂數學嗎?MathVerse來了次摸底測評,放出當天登熱榜

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕

新智元報道編輯:桃子 潤 【新智元導讀】秒懂視頻的AI誕生了!KAUST和哈佛大學研究團隊提出MiniGPT4-Video框架,不僅能理解復雜視頻,甚至還能作詩配文。幾天...
閱讀原文

李飛飛主講,斯坦福2024 CS231n開課,依舊座無虛席

?機器之心報道 編輯:蛋醬「這是自 Karpathy 和我 2015 年啟動這門課程以來的第 9 個年頭,這是人工智能和計算機視覺令人難以置信的十年!」 知名 AI 科學家...
閱讀原文

馬斯克放棄自動駕駛?特斯拉CV負責人被曝離職,馬斯克急澄清

新智元報道編輯:好困 Aeneas 【新智元導讀】就在剛剛,特斯拉CV負責人Ethan Knight被曝已經離職,轉投xAI。網友紛紛猜測:馬斯克這是要放棄特斯拉FSD了?他...
閱讀原文

AI視覺的“大一統”:從CV到多模態,從行業大模型到機器人,曠視如何布局?

聚焦行業大模型,企業共創抵達“最后一公里”。 作者|三北 編輯|漠影 智東西4月2日報道,當前,大模型技術正在加速滲透到行業數字化進程中,賦能新的應用場景,...
閱讀原文

吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt,連黑客帝國的都能數清楚

白交 發自 凹非寺量子位 | 公眾號 QbitAI還記得黑客帝國經典的子彈時間嗎? IDEA研究院最新檢測模型T-Rex2,可以齊刷刷給全部識別出來~ 而面對難倒一眾大模型...
閱讀原文

極越想打一場“翻身仗” |甲子光年

極越CEO夏一平:三電技術走到盡頭,要贏得市場只能看智駕。作者|張麟 編輯|王博 極越01上市后,極越CEO夏一平面臨了極大的挑戰。 蓋世汽車統計數據顯示,20...
閱讀原文

超越 GPT-4V 和 Gemini Pro!HyperGAI 發布最新多模態大模型 HPT,已開源

夕小瑤科技說 原創作者 | 任同學隨著AI從有限數據邁向真實世界,極速增長的數據規模不僅賦予了模型令人驚喜的能力,也給多模態模型提供了更多的可能性。OpenA...
閱讀原文

在 ChatGPT 出現之前,李飛飛的ImageNet如何奠定了人工智能的技術?

進入 2024 年,人工智能的發展速度似乎已經快過了時間的更迭。 2 月,OpenAI 發布視頻生成模型 Sora,就像一年多前才發布的 ChatGPT 一樣,Sora 被外界認為是...
閱讀原文

劉洺堉:用于可視化內容生成的 Edify 模型 |NVIDIA GTC24 大會預告

3月18-21日,NVIDIA GTC 2024 大會即將舉行! 與由業界大咖、開發人員、研究人員和商業策略專家組成的夢之隊交流,共同塑造 AI 和加速計算的未來。從備受期待...
閱讀原文
18910111220