產品名稱:DiffSensei
產品簡介:DiffSensei是北京大學、上海AI實驗室及南洋理工大學的研究人員共同推出的漫畫生成框架,能生成可控的黑白漫畫面板。DiffSensei整合基于擴散的圖像生成器和多模態大型語言模型(MLLM),實現對漫畫中多角色外觀和互動的精確控制。
詳細介紹:
DiffSensei是什么
DiffSensei是北京大學、上海AI實驗室及南洋理工大學的研究人員共同推出的漫畫生成框架,能生成可控的黑白漫畫面板。DiffSensei整合基于擴散的圖像生成器和多模態大型語言模型(MLLM),實現對漫畫中多角色外觀和互動的精確控制。框架用掩碼交叉注意力機制和MLLM適配器,根據文本提示動態調整角色特征,包括表情、姿勢和動作,生成具有連貫性和視覺吸引力的漫畫面板。DiffSensei引入MangaZero數據集,支持多角色、多狀態的漫畫生成任務。
DiffSensei的主要功能
- 定制化漫畫生成:根據用戶提供的角像和文本提示生成漫畫,支持用戶對角色的外觀、表情、動作進行定制。
- 多角色控制:框架支持多角色場景的漫畫生成,處理角色間的互動和布局。
- 文本兼容的身份適配:基于MLLM,根據文本提示動態調整角色特征,讓角色的表現與文本描述相匹配。
- 精確布局控制:用掩碼交叉注意力機制,精確控制角色和對話的布局,無需直接像素傳輸。
- 數據集支持:引入MangaZero數據集,一個大規模的、為多角色、多狀態漫畫生成任務設計的標注數據集。
DiffSensei的技術原理
- 整合MLLM和擴散模型:結合MLLM作為文本兼容的身份適配器和基于擴散的圖像生成器,生成定制化的漫畫面板。
- 掩碼交叉注意力(Masked Cross-Attention):復制關鍵和值矩陣,在每個交叉注意力層中創建的角色交叉注意力層,實現角色布局的精確控制。
- 對話布局編碼(Dialog Layout Encoding):引入可訓練的嵌入層表示對話布局,將對話嵌入與噪聲潛在表示相結合,實現對話位置的編碼。
- MLLM作為特征適配器:MLLM接收源角色特征和面板標題作為輸入,生成與文本兼容的目標角色特征,動態調整角色狀態。
- 多角色特征提取:用CLIP和圖像編碼器提取局部圖像特征和圖像級特征,基于特征提取器處理,避免直接從參考圖像編碼細粒度空間特征。
- 擴散損失和語言模型損失:在訓練MLLM時,計算語言模型損失(LM Loss)約束輸出格式,均方誤差損失(MSE Loss)指導基于面板標題的目標角色特征,計算擴散損失確保編輯后的特征與圖像生成器保持一致。
DiffSensei的項目地址
- 項目官網:jianzongwu.github.io/projects/diffsensei
- GitHub倉庫:https://github.com/jianzongwu/DiffSensei
- arXiv技術論文:https://arxiv.org/pdf/2412.07589
DiffSensei的應用場景
- 漫畫創作:藝術家和漫畫家生成漫畫頁面,快速實現從腳本到視覺敘事的轉換,提高創作效率。
- 個性化內容生成:用戶根據自己的故事想法,上傳角片,生成個性化的漫畫內容,用在個人娛樂或社交媒體分享。
- 教育和培訓:在教育領域,創建與教學內容相匹配的視覺故事,幫助學生更好地理解和記憶復雜的概念。
- 電影和游戲預制:在電影制作和游戲設計中,作為預制工具,快速生成故事板或概念藝術,便于前期創意和視覺開發。
- 廣告和營銷:營銷人員創建吸引人的漫畫廣告,用新穎的方式吸引目標受眾。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...