ControlNet作者又出新作：百萬數(shù)據(jù)訓(xùn)練，AI圖像生成迎來圖層設(shè)計(jì)

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：ControlNet作者又出新作：百萬數(shù)據(jù)訓(xùn)練，AI圖像生成迎來圖層設(shè)計(jì)
關(guān)鍵字：模型,圖像,背景,前景,研究者
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4906字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：陳萍、杜偉有人表示：「等待已久的 AI 圖像創(chuàng)建功能終于迎來了圖層！」盡管用于生成圖像的大模型已經(jīng)成為計(jì)算機(jī)視覺和圖形學(xué)的基礎(chǔ)，但令人驚訝的是，分層內(nèi)容生成或透明圖像（是指圖像的某些部分是透明的，允許背景或者其他圖層的圖像通過這些透明部分顯示出來）生成領(lǐng)域獲得的關(guān)注極少。這與市場的實(shí)際需求形成了鮮明對(duì)比。大多數(shù)視覺內(nèi)容編輯軟件和工作流程都是基于層的，嚴(yán)重依賴透明或分層元素來組合和創(chuàng)建內(nèi)容。
來自斯坦福大學(xué)的研究者提出了一種「latent transparency（潛在透明度）」方法，使得經(jīng)過大規(guī)模預(yù)訓(xùn)練的潛在擴(kuò)散模型能夠生成透明圖像以及多個(gè)透明圖層。論文地址：https://arxiv.org/pdf/2402.17113.pdf
論文標(biāo)題：Transparent Image Layer Diffusion using Latent Transparency
舉例來說，對(duì)于給定的文本提示（如頭發(fā)凌亂的女人，在臥室里），該研究提出的方法能夠生成具有透明度的多個(gè)圖層。也就是說該模型不僅能根據(jù)提示生成圖片，還能將前景和背景進(jìn)行分層，背景丟失的信息也能很好的補(bǔ)充。此外，本文

原文鏈接：ControlNet作者又出新作：百萬數(shù)據(jù)訓(xùn)練，AI圖像生成迎來圖層設(shè)計(jì)