ControlNet作者又出新作:百萬數(shù)據(jù)訓(xùn)練,AI圖像生成迎來圖層設(shè)計(jì)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:ControlNet作者又出新作:百萬數(shù)據(jù)訓(xùn)練,AI圖像生成迎來圖層設(shè)計(jì)
關(guān)鍵字:模型,圖像,背景,前景,研究者
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4906字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:陳萍、杜偉有人表示:「等待已久的 AI 圖像創(chuàng)建功能終于迎來了圖層!」盡管用于生成圖像的大模型已經(jīng)成為計(jì)算機(jī)視覺和圖形學(xué)的基礎(chǔ),但令人驚訝的是,分層內(nèi)容生成或透明圖像(是指圖像的某些部分是透明的,允許背景或者其他圖層的圖像通過這些透明部分顯示出來)生成領(lǐng)域獲得的關(guān)注極少。這與市場的實(shí)際需求形成了鮮明對比。大多數(shù)視覺內(nèi)容編輯軟件和工作流程都是基于層的,嚴(yán)重依賴透明或分層元素來組合和創(chuàng)建內(nèi)容。
來自斯坦福大學(xué)的研究者提出了一種「latent transparency(潛在透明度)」方法,使得經(jīng)過大規(guī)模預(yù)訓(xùn)練的潛在擴(kuò)散模型能夠生成透明圖像以及多個透明圖層。論文地址:https://arxiv.org/pdf/2402.17113.pdf
論文標(biāo)題:Transparent Image Layer Diffusion using Latent Transparency
舉例來說,對于給定的文本提示(如頭發(fā)凌亂的女人,在臥室里),該研究提出的方法能夠生成具有透明度的多個圖層。也就是說該模型不僅能根據(jù)提示生成圖片,還能將前景和背景進(jìn)行分層,背景丟失的信息也能很好的補(bǔ)充。此外,本文
原文鏈接:ControlNet作者又出新作:百萬數(shù)據(jù)訓(xùn)練,AI圖像生成迎來圖層設(shè)計(jì)
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺