CVPR 2024|讓圖像擴散模型生成高質(zhì)量360度場景,只需要一個語言模型
AIGC動態(tài)歡迎閱讀
原標題:CVPR 2024|讓圖像擴散模型生成高質(zhì)量360度場景,只需要一個語言模型
關(guān)鍵字:模型,場景,報告,圖像,語言
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com蔡志鵬博士(https://zhipengcai.github.io/)是美國英特爾研究院的研究員,博士畢業(yè)于澳大利亞阿德萊德大學(xué)。他的研究興趣包括魯棒視覺感知,持續(xù)學(xué)習(xí)和生成模型等。他的工作已在領(lǐng)域頂級會議雜志上發(fā)表超過15篇。其中5篇文章被選為頂級會議(ECCV18*2,ICCV19,ICLR24,CVPR24)口頭或特邀報告,對魯棒估計計算復(fù)雜度的理論證明工作被選為ECCV18 12篇最佳論文之一。
360 度場景生成是計算機視覺的重要任務(wù),主流方法主要可分為兩類,一類利用圖像擴散模型分別生成 360 度場景的多個視角。由于圖像擴散模型缺乏場景全局結(jié)構(gòu)的先驗知識,這類方法無法有效生成多樣的 360 度視角,導(dǎo)致場景內(nèi)主要的目標被多次重復(fù)生成,如圖 1 的
原文鏈接:CVPR 2024|讓圖像擴散模型生成高質(zhì)量360度場景,只需要一個語言模型
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺