標簽:視覺

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

CVPR 2024現場觀察:隨處可見的華人面孔和最熱的三大研究領域|甲子光年

在涼爽的西雅圖,屋子太小,CVPR太火。作者|蘇霍伊? 編輯|王博 發自美國西雅圖 美國當地時間6月19日,2024年IEEE國際計算機視覺與模式識別會議(CVPR)的最...
閱讀原文

超1.2萬人參加CVPR 2024,谷歌研究院獲得最佳論文

大數據文摘授權轉載自AI科技評論 作者:賴文昕、馬蕊蕾 編輯:陳彩嫻 北京時間今天凌晨,美國西雅圖正在召開的計算機視覺盛會 CVPR 2024 正式公布了最佳論文...
閱讀原文

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

視覺基礎模型與文生視頻成為 CVPR 2024 兩大熱點。作者丨賴文昕 馬蕊蕾 編輯丨陳彩嫻 北京時間今天凌晨,美國西雅圖正在召開的計算機視覺盛會 CVPR 2024 正式...
閱讀原文

商湯披露:50篇論文入選CVPR 2024

一水 發自 凹非寺量子位 | 公眾號 QbitAICVPR正在進行中,中國科研力量再次成為場內外焦點之一。 日前,AI頂會常客選手商湯科技,已經披露了今年成績單:50篇...
閱讀原文

霉霉開口唱碧昂絲的歌,又是AI!口型不出戲,五官姿態也自然,復旦百度等出品|GitHub攬星1k+

西風 發自 凹非寺量子位 | 公眾號 QbitAI一張人像、一段音頻參考,就能讓霉霉在你面前唱碧昂絲的《Halo》。 一種名為Hallo的研究火了,GitHub已攬星1k+。 話...
閱讀原文

大模型理解復雜表格,字節&中科大出手了

允中 發自 凹非寺量子位 | 公眾號 QbitAI只要一個大模型,就能解決打工人遇到的表格難題! 字節聯手中科大推出了一款統一表格理解大模型,可以以用戶友好的方...
閱讀原文

全華人團隊推出多模態大模型新基準,GPT-4o準確率僅為65.5%,所有模型最易犯感知錯誤

王家豪 投稿自 凹非寺量子位 | 公眾號 QbitAIGPT-4o再次掀起多模態大模型的浪潮。 如果他們能以近似人類的熟練程度,在不同領域執行廣泛的任務,這對許多領域...
閱讀原文

復旦字節強強聯手,量身定制多模態思維鏈,讓7B模型全面超越GPT-4V

夕小瑤科技說 原創作者 | 任同學多模態大模型在不同的任務中表現出了令人印象深刻的能力,但是在處理復雜任務時,模型的性能仍然受到了單步推理范式的限制。...
閱讀原文

視覺語言模型導論:這篇論文能成為你進軍VLM的第一步

機器之心報道 編輯:Panda近些年,語言建模領域進展非凡。Llama 或 ChatGPT 等許多大型語言模型(LLM)有能力解決多種不同的任務,它們也正在成為越來越常用...
閱讀原文

為虛擬神經科學開辟新領域,斯坦福AI新算法模擬大腦如何理解視覺世界

來源:ScienceAI 編輯:X 當我們看著時鐘的秒針移動時,我們的大腦會激活一系列的神經元,這些神經元對特定的視覺角度敏感。這些細胞形成美麗的「風車」圖,...
閱讀原文

329篇圖像、視頻生成論文,今年CVPR最火的研究主題是這些

機器之心報道 編輯:Sia圖像與視頻合成、3D 視覺、人體行為識別、視覺與語言推理等研究方向論文最多,屬于最熱門的方向,體現當前學界對視覺生成、三維感知、...
閱讀原文

原作者帶隊,LSTM卷土重來之Vision-LSTM出世

機器之心報道 編輯:鴨梨、蛋醬與 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更勝一籌。 AI 領域的研究者應該還記得,在 Transforme...
閱讀原文

多模態視覺-語言大模型的架構演進

直播預告 | 6月6日晚7點,「智猩猩AI新青年講座」第238講正式開講,香港大學CVMI Lab在讀博士 楊霽晗將直播講解《V-IRL:根植于真實世界的AI Agents》,歡迎...
閱讀原文

從 ImageNet 到 AlexNet,李飛飛萬字自述人工智能誕生的關鍵進程

要怎么介紹李飛飛? AI 教母、《時代》百大 AI 影響力人物、福布斯中國·全球華人精英 Top100, 美國國家工程院、國家醫學院、藝術與科學院三院院士, 現代人...
閱讀原文
15678920