首個(gè)檢索增強(qiáng)3D生成模型!實(shí)現(xiàn)各種模態(tài)生成大一統(tǒng):文&圖&3D都可以
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:首個(gè)檢索增強(qiáng)3D生成模型!實(shí)現(xiàn)各種模態(tài)生成大一統(tǒng):文&圖&3D都可以
關(guān)鍵字:模型,視圖,研究人員,網(wǎng)絡(luò),基礎(chǔ)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
王振偉 投稿自 凹非寺量子位 | 公眾號(hào) QbitAI3D生成也能支持檢索增強(qiáng)(RAG)了。
有了檢索到的參考模型之后,3D生成效果更好,還具有極強(qiáng)的泛化性和可控性。
比如像這張,它生成幾何質(zhì)量得到了極大的改善。
還可以實(shí)現(xiàn)主題一致的3D到3D生成,僅需自參考輸入的3D模型即可支持該功能。之前的相關(guān)研究需要約1小時(shí),現(xiàn)在壓縮不到10秒。
來自香港城市大學(xué)、上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)和南洋理工大學(xué)S-Lab的研究人員提出了一種名為Phidias的新3D生成框架。
該框架將語言和圖像生成領(lǐng)域中常見的檢索增強(qiáng)生成(RAG)引入3D生成。
Phidias是一種參考增強(qiáng)的擴(kuò)散生成模型。
該模型統(tǒng)一了文生3D、圖生3D和3D到3D生成等任務(wù),其利用檢索到的或用戶提供的3D參考模型來指導(dǎo)3D生成過程,從而提高了生成質(zhì)量、泛化能力和可控性。
Phidias包含三個(gè)關(guān)鍵組件:
1)用于動(dòng)態(tài)調(diào)節(jié)控制強(qiáng)度的元控制網(wǎng)絡(luò)(meta-ControlNet);
2)用于減輕輸入圖像和3D參考模型沖突的動(dòng)態(tài)參考路由模塊(dynamic reference routing);
3)用于支持高效自監(jiān)督學(xué)習(xí)的自我參考
原文鏈接:首個(gè)檢索增強(qiáng)3D生成模型!實(shí)現(xiàn)各種模態(tài)生成大一統(tǒng):文&圖&3D都可以
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介: