CVPR 2024｜讓圖像擴散模型生成高質(zhì)量360度場景，只需要一個語言模型

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：CVPR 2024｜讓圖像擴散模型生成高質(zhì)量360度場景，只需要一個語言模型
關(guān)鍵字：模型,場景,報告,圖像,語言
文章來源：機器之心
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com蔡志鵬博士（https://zhipengcai.github.io/）是美國英特爾研究院的研究員，博士畢業(yè)于澳大利亞阿德萊德大學(xué)。他的研究興趣包括魯棒視覺感知，持續(xù)學(xué)習(xí)和生成模型等。他的工作已在領(lǐng)域頂級會議雜志上發(fā)表超過15篇。其中5篇文章被選為頂級會議（ECCV18*2，ICCV19，ICLR24，CVPR24）口頭或特邀報告，對魯棒估計計算復(fù)雜度的理論證明工作被選為ECCV18 12篇最佳論文之一。
360 度場景生成是計算機視覺的重要任務(wù)，主流方法主要可分為兩類，一類利用圖像擴散模型分別生成 360 度場景的多個視角。由于圖像擴散模型缺乏場景全局結(jié)構(gòu)的先驗知識，這類方法無法有效生成多樣的 360 度視角，導(dǎo)致場景內(nèi)主要的目標被多次重復(fù)生成，如圖 1 的

原文鏈接：CVPR 2024｜讓圖像擴散模型生成高質(zhì)量360度場景，只需要一個語言模型