標簽:圖像

ECCV 2024揭榜,錄用率或創新低!2395篇論文中選,網友曬出成績單

新智元報道編輯:桃子 好困 【新智元導讀】兩年一屆的ECCV錄用結果終于揭曉了!剛剛,ECCV組委會公布了錄用論文名單,共有2395篇論文被錄用。ECCV 2024錄用結...
閱讀原文

CVPR'24:文生圖提示詞自動優化,還發現三個小竅門,人大度小滿等機構出品

PAE團隊 投稿至 凹非寺量子位 | 公眾號 QbitAI文生圖也有自己的prompt優化工具了。 我們都知道,大模型輸出的質量,很大程度上依賴于輸入的prompt。尤其在文...
閱讀原文

人剛畢業,顛覆整個AI界:扒一扒Sora兩帶頭人博士論文

機器之心報道 機器之心編輯部?看看這個時代最偉大 AI 學者的研究脈絡。2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把競爭推向了視頻生成的新高度...
閱讀原文

按需搭配一鍵疊穿,效果拿下新SOTA!中山大學&字節智創數字人團隊提出虛擬試穿新框架

MMTryon團隊 投稿量子位 | 公眾號 QbitAI多件衣服按指定穿法一鍵虛擬試穿! 中山大學&字節智創數字人團隊提出了一個名為MMTryon的虛擬試穿框架,可以通過...
閱讀原文

從零開始,用英偉達T4、A10訓練小型文生視頻模型,幾小時搞定

選自 levelup.gitconnected 作者:Fareed Khan 機器之心編譯 編輯:杜偉、大盤雞很翔實的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion...
閱讀原文

通用多模態人工智能:架構、挑戰和機遇綜述

來源:專知 多模態模型被認為是未來人工智能進步的關鍵組成部分。由于基礎模型在自然語言處理 (NLP) 和視覺領域的成功,這一領域正迅速發展,并涌現出大量新...
閱讀原文

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI更接近現實

劉子煜 投稿量子位 | 公眾號 QbitAI大模型對話能更接近現實了! 不僅可以最多輸入20張圖像,還能支持多達27輪對話。可處理文本+圖像tokens最多18k。 這就是最...
閱讀原文

看張手繪草圖就能合成圖形程序,加州伯克利讓擴散模型掌握新技能

機器之心報道 編輯:Panda事實證明,擴散模型不僅能用于生成圖像和視頻,也能用于合成新程序。假設我們給模型一張手繪的「5」狀圖形,它就能通過不斷突變來修...
閱讀原文

大型視覺語言模型VLMs一年多的進展與思考

7月2日晚七點,「NVIDIA 機器人技術公開課」正式開講,NVIDIA解決方案架構總監舒家明將以《NVIDIA Isaac 加速機器人3D視覺感知與機械臂軌跡規劃》為主題進行...
閱讀原文

300多篇相關研究,復旦、南洋理工最新多模態圖像編輯綜述論文

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

Bengio團隊提出多模態新基準,直指Claude 3.5和GPT-4o弱點

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

將圖像自動文本化,圖像描述質量更高、更準確了

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

計算機視覺華人史:權龍與他的學生們

他們見證了 3D 視覺的崛起故事,也是故事的本身。作者 | 賴文昕 編輯 | 陳彩嫻 「簡單,是終極的復雜。」1群星閃耀時1988 年的冬天,一輛火車從法國出發、開...
閱讀原文

首次引入GPT-4o!圖像自動評估新基準來啦

DreamBench++團隊 投稿量子位 | 公眾號 QbitAI面對層出不窮的個性化圖像生成技術,一個新問題擺在眼前: 缺乏統一標準來衡量這些生成的圖片是否符合人們的喜...
閱讀原文

超越擴散模型!自回歸新范式僅需2.9秒就生成高質量圖像,中科大哈工大度小滿出品

STAR團隊 投稿自 凹非寺量子位 | 公眾號 QbitAI超越擴散模型!自回歸范式在圖像生成領域再次被驗證—— 中科大、哈工大、度小滿等機構提出通用文生圖模型STAR。...
閱讀原文
1111213141548