標簽:視覺
今日arXiv最熱NLP大模型論文:逆向解析Sora背后的秘密,談AI視頻的機遇與挑戰
夕小瑤科技說 原創作者 | Tscom 引言:Sora——AI在視頻生成領域的新篇章隨著AI技術的飛速發展,人工智能已在視頻生成領域翻開新的篇章。自2022年11月ChatGPT問...
專訪上海大學方昱春教授:數據驅動的手語識別研究,如何數據之困?|GAIR live
如何利用計算機視覺技術,解析手語的奧秘?作者|吳彤 編輯|麥廣煒 在科技日新月異的今天,手語識別作為一種新興的跨學科研究領域,正逐漸走進公眾視野。 近...
提升生成式零樣本學習能力,視覺增強動態語義原型方法入選CVPR 2024
機器之心專欄 機器之心編輯部雖然我從來沒見過你,但是我有可能「認識」你 —— 這是人們希望人工智能在「一眼初見」下達到的狀態。 為了達到這個目的,在傳統...
Claude 3 Haiku發布:Anthropic迄今為止最快的模型
點擊上方藍字關注我們“Anthropic公司推出最新AI模型Claude 3 Haiku,以高速度和實惠的價格脫穎而出。Haiku不僅具備先進的視覺功能,還在處理速度上表現出色,...
從第一人稱視角理解世界,多模態模型離我們還有多遠?| CVPR 2024
大數據文摘受權轉載自將門創投 目前很多評測工作探究視覺語言大模型在不同維度上的能力,但都忽視了真實世界中非常重要的一點:未來作為智能體或機器人的大腦...
今日Arxiv最熱NLP大模型論文:美團發布VisionLLaMA,為視覺生成和理解提供新基線
夕小瑤科技說 原創作者 | 芒果引言:探索統一的視覺與語言模型架構在人工智能領域,統一的模型架構對于簡化模型設計、提高模型效率以及促進跨領域應用具有重...
Sora:大型視覺模型的背景、技術、局限性和機遇綜述
點擊上方藍字關注我們注:本文翻譯自論文《Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models》,原作者版...
全面超越ViT,美團、浙大等提出視覺任務統一架構VisionLLAMA
機器之心專欄 機器之心編輯部半年多來,Meta 開源的 LLaMA 架構在 LLM 中經受了考驗并大獲成功(訓練穩定、容易做 scaling)。 沿襲 ViT 的研究思路,我們能...
7B模型超越GPT4-V!港科大等發布「圖推理問答」數據集GITQA:視覺圖可提升推理能力
新智元報道編輯:LRS 好困 【新智元導讀】研究人員證實了Visual Graph在圖推理中的作用,以及其可以和文本模態相互增強。圖神經網絡(GNNs)擅長利用圖的結構...
大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預測下一幀就能改變世界
新智元報道編輯:潤 好困 【新智元導讀】谷歌DeepMind、UC伯克利和MIT的研究人員認為,如果用大語言模型的思路來做大視頻模型,能解決很多語言模型不擅長的問...
給AI Agent完整的一生!港大NYU謝賽寧等最新智能體研究:虛擬即現實
新智元報道編輯:alan 好困 【新智元導讀】近日,來自香港大學的Jihan Yang和紐約大學的謝賽寧等人發表了新的成果,將真實世界的地圖、街景等各種信息融入Age...
解剖Sora:37頁論文逆向工程推測技術細節,微軟參與,華人團隊出品
西風 發自 凹非寺量子位 | 公眾號 QbitAISora剛發布不久,就被逆向工程“解剖”了?! 來自理海大學、微軟研究院的華人團隊發布了首個Sora相關研究綜述,足足有...
中國如何復刻Sora,華人團隊長文解構!996 OpenAI研究員:Sora是視頻GPT-2時刻
新智元報道編輯:編輯部 【新智元導讀】自曝996作息的OpenAI研究員Jason Wei表示,Sora代表著視頻生成的GPT-2時刻。競爭的關鍵,就是算力和數據了。國內有可...
首個Sora逆向工程論文發布!
Sora深度論文綜述中文版。 作者|城主 寫在前面:來自理海大學和微軟研究院的研究團隊本周二發布了Sora的深度論文綜述。這里和關心Sora的同學們分享本城翻譯制...
首批現場體驗 AI Pin 的人:為什么我不換臺手機呢?
爭議不斷 創意不斷AI Pin 在 MWC 2024(世界移動通信大會) 上的出場方式,和它本身一樣,充滿了爭議。 Humane(AI Pin 母公司) 沒有專屬的展位,因此只能在...