標簽:視覺
讓現實消失的不是 Sora,而是明日的 Vision Pro
更沉浸 更個性 更孤獨OpenAI Sora 模型的誕生,讓不少人大呼「現實已經不存在了」,因為它能讓文字描述快速變成乍一看可以假亂真的視頻。 然而,真正可以讓現...
讓視覺語言模型搞空間推理,谷歌又整新活了
機器之心報道 機器之心編輯部視覺語言模型雖然強大,但缺乏空間推理能力,最近 Google 的新論文說它的 SpatialVLM 可以做,看看他們是怎么做的。視覺語言模型...
OpenAI發布強大的視頻生成工具,讓整個行業哀鴻遍野
點擊上方藍字關注我們“OpenAI發布了最新產品Sora,能憑文本生成60秒生動視頻。Sora融合語言與圖像生成技術,實現了連貫的場景轉換,包括細節如頭發、服裝,以...
OpenAI創始大神卡帕西再度離職!回歸一年很邊緣,內訌中不站隊不表態
金磊 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI創始研究員Andrej Karpathy,離職了——又一次。 Andrej Karpathy本人在X上發布了這一消息: 我昨天離開了OpenAI...
計算機視覺算法,難以落地無人機航拍應用,why?
(謹以此文,獻給那些涉及 AI 需求的產品經理,領導,以及某些不稱職的算法工程師們) 今天來說點真話,不吐不快。 在ChatGPT 大模型到來之前,人工智能發展...
iPhone動嘴10秒P圖!UCSB蘋果全華人團隊發布多模態MGIE,官宣開源人人可玩
新智元報道編輯:桃子 【新智元導讀】最近,來自UCSB和蘋果的華人團隊提出了MGIE,通過多模態模型引導圖像精準編輯,可以10秒完成P圖。幾天前,庫克在蘋果電...
罕見!蘋果開源圖片編輯神器MGIE,要上iPhone?
機器之心報道 編輯:蛋醬、陳萍拍張照片,輸入文字指令,手機就開始自動修圖? 這一神奇功能,來自蘋果剛剛開源的圖片編輯神器「MGIE」。把背景中的人移除在...
CV大神何愷明正在招收博士后和實習生!
夕小瑤科技說 原創作者 | 謝年年 想必大家都知道,CV大神何愷明將在24年加入MIT EECS(電子工程和計算機科學系),而就在近日,何愷明在個人主頁上官宣招收研...
年齡兩歲,教齡一年半:嬰兒AI訓練師登上Science
機器之心報道 編輯:婁佳琪、張倩只用 61 個小時的數據:人們終于證明了,利用當代 AI 工具,實現「真正的語言學習」是可行的。 在公開采訪中,圖靈獎得主 Ya...
趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了
機器之心報道 機器之心編輯部去年 4 月,威斯康星大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發布了 LLaVA(Large Language and Vision Assistant)...
純文本模型訓出「視覺」表征!MIT最新研究:語言模型用代碼就能作畫
新智元報道編輯:LRS 【新智元導讀】不用圖像,只用文本就能訓練出視覺概念表征?用寫代碼的方式讀懂畫面,形狀、物體、場景都能懂!只會「看書」的大語言模...
ICLR 2024|把圖像視為外語,快手、北大多模態大模型媲美DALLE-3
機器之心報道 機器之心編輯部動態視覺分詞統一圖文表示,快手與北大合作提出基座模型 LaVIT 刷榜多模態理解與生成任務。 當前的大型語言模型如 GPT、LLaMA 等...
從20億數據中學習物理世界,基于Transformer的通用世界模型成功挑戰視頻生成
允中 發自 凹非寺量子位 | 公眾號 QbitAI建立會做視頻的世界模型,也能通過Transformer來實現了! 來自清華和極佳科技的研究人員聯手,推出了全新的視頻生成...
年輕人的第一個多模態大模型:1080Ti輕松運行,已開源在線可玩
Vary-toy團隊 投稿量子位 | 公眾號 QbitAI一款名為Vary-toy的“年輕人的第一個多模態大模型”來了! 模型大小不到2B,消費級顯卡可訓練,GTX1080ti 8G的老顯卡...
中文性能反超VLM頂流GPT-4V,阿里Qwen-VL超大杯限免!看圖秒寫編程視覺難題一眼辨出
新智元報道編輯:編輯部 【新智元導讀】多模態大模型將是AI下一個爆點。最近,通義千問VLM模型換新升級,超大杯性能堪比GPT-4V。最最重要的是,還能限時免費...