引入類似ControlNet的分支網絡思路
原標題:更懂中文還兼顧SD生態,360開源文生圖模型結構,寡姐秒變中國新娘 | AAAI
文章來源:量子位
內容字數:3676字
360人工智能研究院提出原生中文理解文生圖模型BDM
本文總結了360人工智能研究院提出的Bridge Diffusion Model (BDM) 文生圖模型的主要特點和優勢。BDM 解決了現有AI繪畫模型中普遍存在的中文理解和文化偏見問題,并實現了與Stable Diffusion 生態的兼容。
1. 解決中文AI繪畫的世界觀偏見
當前許多中文AI繪畫產品依賴于開源的英文模型,導致生成的圖像存在明顯的英文世界觀偏見。例如,人物形象、服飾、建筑等方面都難以準確反映中文文化的認知。BDM的核心目標正是解決這一問題,它致力于實現“原生中文”理解,即不僅支持中文輸入,更重要的是能夠生成符合中文文化認知的圖像。
2. BDM模型的創新之處
BDM采用了類似ControlNet的分支網絡結構,通過不同的網絡分支學習不同語言的數據。這使得BDM不僅可以實現原生中文圖像生成,還可以支持其他任意語言,并保證生成的圖像符合對應語言文化的認知。英文部分可以直接復用已有的開源模型,從而實現與Stable Diffusion等開源社區的無縫兼容。使用時只需要輸入一種語言,例如輸入中文時,英文分支則為空文本輸入。
3. BDM模型的訓練和效果
BDM v1版本使用10億量級的中文圖文數據進行訓練,并兼容SD1.5社區生態。實驗結果表明,BDM能夠有效生成具有中文特有概念的圖像,并能處理中英多義詞等復雜情況,同時保持與不同SD1.5風格微調模型的良好兼容性。
4. 與其他中文AI繪畫方案的對比
文章對比了四種實現中文AI繪畫的路線:英文模型+翻譯、英文模型+隱式翻譯、英文模型+隱式翻譯+微調以及中文數據從頭訓練。前三種方法都存在局限性,難以完全解決模型的世界觀偏見問題。而BDM通過其獨特的模型結構,在兼顧原生中文理解的同時,實現了與現有開源生態的兼容,這是一種更有效且更具實用性的方案。
5. 360人工智能研究院的AI戰略
BDM是360人工智能研究院在多模態生成方向的重要成果,該研究院承擔著360集團All in AI戰略下的多模態大模型研發任務,并已陸續推出多個相關模型,例如360VL多模態大模型、可控布局HiCo模型以及新一代DiT架構Qihoo-T2X等。BDM和多模態理解模型IAA均被AAAI 2025會議接收,彰顯了360人工智能研究院在AI領域的科研實力。
6. 開源信息
BDM模型已開源,相關論文和代碼可在Arxiv和Github上獲取。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破