引入類似ControlNet的分支網絡思路
原標題:更懂中文還兼顧SD生態,360開源文生圖模型結構,寡姐秒變中國新娘 | AAAI
文章來源:量子位
內容字數:3676字
文章要點總結
本文介紹了冷大煒博士及其團隊在量子位的最新研究成果——Bridge Diffusion Model(BDM),該模型旨在解決中文AI繪畫中的世界觀偏見問題,并兼容Stable Diffusion(SD)生態。BDM是由360人工智能研究院提出的,最近被AAAI接收并已開源。
1. 原生中文理解能力
BDM不僅支持中文輸入,更重要的是生成符合中文文化認知的圖像。傳統的英文模型如SD和Midjourney在生成內容時,往往受限于英文世界觀,導致圖像無法準確反映中文文化。
2. 解決模型的世界觀偏見
為了克服模型的偏見,研究團隊提出了四種實現路線:英文模型+翻譯、英文模型+隱式翻譯、英文模型+隱式翻譯+微調,以及中文數據從頭訓練。第四種方案是最徹底的,但也需要考慮與現有開源生態的兼容性。
3. BDM的結構與功能
BDM采用類似ControlNet的分支網絡結構,能夠根據不同語言學習數據,確保生成圖像符合對應文化認知。該模型在訓練中使用了10億量級的中文圖文數據,并與SD1.5社區生態實現兼容。
4. 研究成果與未來方向
BDM在生成中文特有概念和應對中英多義情況下表現優異。360人工智能研究院在多模態理解和生成方向的持續研發,將為未來的AI繪畫技術帶來更大的突破。這些研究成果顯示了在AI領域不斷創新的重要性。
總之,BDM為中文AI繪畫提供了新的解決方案,既能理解中文輸入,又能生成符合中文文化的圖像,推動了多模態生成技術的發展。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...