「?jìng)€(gè)性化」圖像生成時(shí)代來(lái)了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:「?jìng)€(gè)性化」圖像生成時(shí)代來(lái)了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架
關(guān)鍵字:圖像,概念,數(shù)據(jù),研究人員,模型
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):7507字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】文中提出了一個(gè)半自動(dòng)數(shù)據(jù)集創(chuàng)建管道Gen4Gen,將個(gè)性化概念與文本描述結(jié)合成復(fù)雜的組合,創(chuàng)建了基準(zhǔn)測(cè)試數(shù)據(jù)集MyCanvas,利用CP-CLIP 和 TI-CLIP指標(biāo)證明了該方法的有效性。過(guò)去幾年里,基于文本來(lái)生成圖像的擴(kuò)散模型得到了飛速發(fā)展,生成能力有了顯著的提升,可以很容易地生成逼真的肖像畫(huà),以及各種天馬行空的奇幻畫(huà)作。
近期的相關(guān)研究主要集中在控制模型生成「?jìng)€(gè)性化」的內(nèi)容,即用戶先提供一個(gè)最小概念圖像集,然后對(duì)預(yù)訓(xùn)練的文本轉(zhuǎn)圖像擴(kuò)散模型進(jìn)行增強(qiáng),從而使模型可以生成包含個(gè)性化概念的新場(chǎng)景。
現(xiàn)有的一些工作可以增強(qiáng)用戶對(duì)生成過(guò)程的控制,并衍生出許多量身定制的應(yīng)用場(chǎng)景;但要同時(shí)對(duì)多個(gè)概念進(jìn)行個(gè)性化處理,并控制圖像生成以準(zhǔn)確遵循給定的文本描述,仍然具有挑戰(zhàn)性。
最近,來(lái)自加州大學(xué)伯克利分校、牛津大學(xué)、哈佛大學(xué)、卡內(nèi)基梅隆大學(xué)、香港大學(xué)、加州大學(xué)戴維斯分校的研究人員聯(lián)合發(fā)表了一篇論文,討論了「圖像生成個(gè)性化」領(lǐng)域下的兩個(gè)關(guān)鍵問(wèn)題。
論文鏈接:https://arxiv.org/abs/2402.15504
項(xiàng)目主頁(yè):https://danielc
原文鏈接:「?jìng)€(gè)性化」圖像生成時(shí)代來(lái)了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。