產(chǎn)品名稱:DiffSensei
產(chǎn)品簡(jiǎn)介:DiffSensei是北京大學(xué)、上海AI實(shí)驗(yàn)室及南洋理工大學(xué)的研究人員共同推出的漫畫生成框架,能生成可控的黑白漫畫面板。DiffSensei整合基于擴(kuò)散的圖像生成器和多模態(tài)大型語(yǔ)言模型(MLLM),實(shí)現(xiàn)對(duì)漫畫中多角色外觀和互動(dòng)的精確控制。
詳細(xì)介紹:
DiffSensei是什么
DiffSensei是北京大學(xué)、上海AI實(shí)驗(yàn)室及南洋理工大學(xué)的研究人員共同推出的漫畫生成框架,能生成可控的黑白漫畫面板。DiffSensei整合基于擴(kuò)散的圖像生成器和多模態(tài)大型語(yǔ)言模型(MLLM),實(shí)現(xiàn)對(duì)漫畫中多角色外觀和互動(dòng)的精確控制??蚣苡醚诖a交叉注意力機(jī)制和MLLM適配器,根據(jù)文本提示動(dòng)態(tài)調(diào)整角色特征,包括表情、姿勢(shì)和動(dòng)作,生成具有連貫性和視覺(jué)吸引力的漫畫面板。DiffSensei引入MangaZero數(shù)據(jù)集,支持多角色、多狀態(tài)的漫畫生成任務(wù)。
DiffSensei的主要功能
- 定制化漫畫生成:根據(jù)用戶提供的角像和文本提示生成漫畫,支持用戶對(duì)角色的外觀、表情、動(dòng)作進(jìn)行定制。
- 多角色控制:框架支持多角色場(chǎng)景的漫畫生成,處理角色間的互動(dòng)和布局。
- 文本兼容的身份適配:基于MLLM,根據(jù)文本提示動(dòng)態(tài)調(diào)整角色特征,讓角色的表現(xiàn)與文本描述相匹配。
- 精確布局控制:用掩碼交叉注意力機(jī)制,精確控制角色和對(duì)話的布局,無(wú)需直接像素傳輸。
- 數(shù)據(jù)集支持:引入MangaZero數(shù)據(jù)集,一個(gè)大規(guī)模的、為多角色、多狀態(tài)漫畫生成任務(wù)設(shè)計(jì)的標(biāo)注數(shù)據(jù)集。
DiffSensei的技術(shù)原理
- 整合MLLM和擴(kuò)散模型:結(jié)合MLLM作為文本兼容的身份適配器和基于擴(kuò)散的圖像生成器,生成定制化的漫畫面板。
- 掩碼交叉注意力(Masked Cross-Attention):復(fù)制關(guān)鍵和值矩陣,在每個(gè)交叉注意力層中創(chuàng)建的角色交叉注意力層,實(shí)現(xiàn)角色布局的精確控制。
- 對(duì)話布局編碼(Dialog Layout Encoding):引入可訓(xùn)練的嵌入層表示對(duì)話布局,將對(duì)話嵌入與噪聲潛在表示相結(jié)合,實(shí)現(xiàn)對(duì)話位置的編碼。
- MLLM作為特征適配器:MLLM接收源角色特征和面板標(biāo)題作為輸入,生成與文本兼容的目標(biāo)角色特征,動(dòng)態(tài)調(diào)整角色狀態(tài)。
- 多角色特征提取:用CLIP和圖像編碼器提取局部圖像特征和圖像級(jí)特征,基于特征提取器處理,避免直接從參考圖像編碼細(xì)粒度空間特征。
- 擴(kuò)散損失和語(yǔ)言模型損失:在訓(xùn)練MLLM時(shí),計(jì)算語(yǔ)言模型損失(LM Loss)約束輸出格式,均方誤差損失(MSE Loss)指導(dǎo)基于面板標(biāo)題的目標(biāo)角色特征,計(jì)算擴(kuò)散損失確保編輯后的特征與圖像生成器保持一致。
DiffSensei的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):jianzongwu.github.io/projects/diffsensei
- GitHub倉(cāng)庫(kù):https://github.com/jianzongwu/DiffSensei
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.07589
DiffSensei的應(yīng)用場(chǎng)景
- 漫畫創(chuàng)作:藝術(shù)家和漫畫家生成漫畫頁(yè)面,快速實(shí)現(xiàn)從腳本到視覺(jué)敘事的轉(zhuǎn)換,提高創(chuàng)作效率。
- 個(gè)性化內(nèi)容生成:用戶根據(jù)自己的故事想法,上傳角片,生成個(gè)性化的漫畫內(nèi)容,用在個(gè)人娛樂(lè)或社交媒體分享。
- 教育和培訓(xùn):在教育領(lǐng)域,創(chuàng)建與教學(xué)內(nèi)容相匹配的視覺(jué)故事,幫助學(xué)生更好地理解和記憶復(fù)雜的概念。
- 電影和游戲預(yù)制:在電影制作和游戲設(shè)計(jì)中,作為預(yù)制工具,快速生成故事板或概念藝術(shù),便于前期創(chuàng)意和視覺(jué)開(kāi)發(fā)。
- 廣告和營(yíng)銷:營(yíng)銷人員創(chuàng)建吸引人的漫畫廣告,用新穎的方式吸引目標(biāo)受眾。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...