標簽:圖像
5秒完成3D生成,真香合成數據集已開源,上交港中文新框架超越Instant3D
陳林 投稿自 凹非寺量子位 | 公眾號 QbitAI使用大模型合成的數據,就能顯著提升3D生成能力? 來自上海交大、香港中文大學等團隊還真做到了。 他們推出Bootstr...
中山大學和字節發布「視頻虛擬試穿」擴散模型VITON-DiT,一鍵生成換裝后視頻!
夕小瑤科技說 原創作者 | 任同學 視頻虛擬試穿技術日益受到關注,然而現有的工作局限于將服裝圖像轉移到姿勢和背景簡單的視頻上,對于隨意拍攝的視頻則效果不...
倒計時 3 天!立即預約蘋果 WWDC24 直播;RLAIF-V 大規模多模態偏好數據集上線,有效減少不同 MLLMs 幻覺現象
Apple WWDC24 主題演講將在北京時間 6 月 11 日(下周二)凌晨 1 點舉行,HyperAI超神經將會在視頻號和 B 站實時轉播,立即預約不錯過???? ??不想熬夜的小伙伴可...
ICML 2024 Oral|外部引導的深度聚類新范式
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
把整個地球裝進神經網絡,北航團隊推出全球遙感圖像生成模型
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI北航的研究團隊,用擴散模型“復刻”了一個地球? 在全球的任意位置,模型都能生成多種分辨率的遙感圖像,創造出豐富...
CLIP當RNN用入選CVPR:無需訓練即可分割無數概念|牛津大學&谷歌研究院
K君 投稿量子位 | 公眾號 QbitAI循環調用CLIP,無需額外訓練就有效分割無數概念。 包括電影動漫人物,地標,品牌,和普通類別在內的任意短語。 牛津大學與谷...
多模態視覺-語言大模型的架構演進
直播預告 | 6月6日晚7點,「智猩猩AI新青年講座」第238講正式開講,香港大學CVMI Lab在讀博士 楊霽晗將直播講解《V-IRL:根植于真實世界的AI Agents》,歡迎...
黃仁勛自曝英偉達最強Rubin架構;優必選人形機器人進入東風柳汽開展造車工作;馬斯克稱將購買30萬塊AI芯片丨AI情報局
01 融資快報Firefly.ai獲2300萬美元A輪融資:Firefly 開發了一個與 IaC 無關的代碼生成引擎,利用AI技術來生成代碼。本輪融資由祥峰投資Vertex、Hanaco Ventu...
北大、騰訊等聯合發布!DynamiCrafter:任意圖像秒變動態視頻,超高清無縫銜接
作者:十九 編輯:李寶珠,三羊 由北大、騰訊 AI Lab 強強聯手推出的 DynamiCrafter 能夠模擬真實世界的運動模式,處理包括風景、人物、動物、交通工具、雕塑...
AI究竟是什么?這篇文章終于用大白話全說清楚了!
點擊上方藍字關注我們人工智能究竟是什么?簡單來說,人工智能就像是模仿人類思考方式的軟件。它既不等同于人類思維,也不比人類思維更好或更壞,但即便是對...
ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構圖小作文
夢晨 西風 發自 凹非寺量子位 | 公眾號 QbitAIControlNet作者新項目,居然也搞起大模型和Agent了。 當然還是和AI繪畫相關:解決大伙不會寫提示詞的痛點。 現...
今日arXiv最熱大模型論文:13位作者,200篇文獻,騰訊最新綜述高效多模態大模型:性能要強,規模要小
夕小瑤科技說 原創作者 | 謝年年在過去一年里,多模態大語言模型(MLLMs)在視覺問答、視覺理解和推理等任務中展現了卓越性能。OpenAI的GPT-4V和Google的Gemi...
GPT-4o 引爆小紅書打卡潮,推動 Vision Pro想象,刷新微軟、Adobe 產品線
GPT-4o 多模態視覺能力激發多重想象。作者丨許一揚 編輯丨陳彩嫻1小紅書打卡潮GPT-4o 發布以后,雖然業內一片噓聲,小紅書上卻掀起了一股打卡熱潮。社交媒體...
神筆馬良畫出三維世界,基于線稿的3D生成編輯方法SketchDream來了
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
任意模態輸入輸出?語音/文本/圖像/音樂都拿下! 復旦提出AnyGPT:序列建模的統一多模態 LLM
直播預告 | 5月28日10點,「智猩猩AI新青年講座」第236講正式開講,密歇根大學安娜堡分校在讀博士生張揮杰將直播講解《利用多級框架和多解碼器架構提高擴散模...