360開源文生圖模型:讓寡姐瞬間化身中國新娘,重塑SD生態(tài)的魅力!
引入類似ControlNet的分支網(wǎng)絡(luò)思路
原標(biāo)題:更懂中文還兼顧SD生態(tài),360開源文生圖模型結(jié)構(gòu),寡姐秒變中國新娘 | AAAI
文章來源:量子位
內(nèi)容字?jǐn)?shù):3676字
文章要點(diǎn)總結(jié)
本文介紹了冷大煒博士及其團(tuán)隊(duì)在量子位的最新研究成果——Bridge Diffusion Model(BDM),該模型旨在解決中文AI繪畫中的世界觀偏見問題,并兼容Stable Diffusion(SD)生態(tài)。BDM是由360人工智能研究院提出的,最近被AAAI接收并已開源。
1. 原生中文理解能力
BDM不僅支持中文輸入,更重要的是生成符合中文文化認(rèn)知的圖像。傳統(tǒng)的英文模型如SD和Midjourney在生成內(nèi)容時(shí),往往受限于英文世界觀,導(dǎo)致圖像無法準(zhǔn)確反映中文文化。
2. 解決模型的世界觀偏見
為了克服模型的偏見,研究團(tuán)隊(duì)提出了四種實(shí)現(xiàn)路線:英文模型+翻譯、英文模型+隱式翻譯、英文模型+隱式翻譯+微調(diào),以及中文數(shù)據(jù)從頭訓(xùn)練。第四種方案是最徹底的,但也需要考慮與現(xiàn)有開源生態(tài)的兼容性。
3. BDM的結(jié)構(gòu)與功能
BDM采用類似ControlNet的分支網(wǎng)絡(luò)結(jié)構(gòu),能夠根據(jù)不同語言學(xué)習(xí)數(shù)據(jù),確保生成圖像符合對應(yīng)文化認(rèn)知。該模型在訓(xùn)練中使用了10億量級的中文圖文數(shù)據(jù),并與SD1.5社區(qū)生態(tài)實(shí)現(xiàn)兼容。
4. 研究成果與未來方向
BDM在生成中文特有概念和應(yīng)對中英多義情況下表現(xiàn)優(yōu)異。360人工智能研究院在多模態(tài)理解和生成方向的持續(xù)研發(fā),將為未來的AI繪畫技術(shù)帶來更大的突破。這些研究成果顯示了在AI領(lǐng)域不斷創(chuàng)新的重要性。
總之,BDM為中文AI繪畫提供了新的解決方案,既能理解中文輸入,又能生成符合中文文化的圖像,推動了多模態(tài)生成技術(shù)的發(fā)展。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破