圖像修復(fù)和編輯大一統(tǒng)!騰訊&北大等聯(lián)合提出BrushEdit
本文介紹了一種新穎的基于修復(fù)的指令引導(dǎo)圖像編輯范式(IIIE)。
原標(biāo)題:圖像修復(fù)和編輯大一統(tǒng)!騰訊&北大等聯(lián)合提出BrushEdit
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):12724字
BrushEdit: 一種基于修復(fù)的指令引導(dǎo)圖像編輯范式
本文介紹了BrushEdit,一個(gè)先進(jìn)的圖像編輯框架,它克服了現(xiàn)有基于擴(kuò)散模型的圖像編輯方法的局限性,實(shí)現(xiàn)了更靈活、可控和用戶(hù)友好的圖像編輯體驗(yàn)。
1. 現(xiàn)有方法的不足
當(dāng)前基于擴(kuò)散模型的圖像編輯方法主要有兩類(lèi):基于反演的方法和基于指令的方法。基于反演的方法在進(jìn)行大幅度修改時(shí)效果較差,因?yàn)榉囱菰肼暤慕Y(jié)構(gòu)性限制了編輯的靈活性。而基于指令的方法通常是黑箱操作,用戶(hù)難以直接指定編輯區(qū)域和強(qiáng)度。
2. BrushEdit 的創(chuàng)新之處
BrushEdit 提出了一種新的圖像編輯范式,它基于圖像修復(fù)(inpainting)和指令引導(dǎo)。通過(guò)整合預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(MLLMs)和雙分支圖像修復(fù)模型,BrushEdit 建立了一個(gè)代理協(xié)作框架,實(shí)現(xiàn)了指令引導(dǎo)的圖像編輯和修復(fù)。
具體而言,BrushEdit 的創(chuàng)新體現(xiàn)在以下幾個(gè)方面:
- 基于修復(fù)的編輯:采用圖像修復(fù)技術(shù),避免了基于反演方法的局限性,能夠更好地處理大幅度修改。
- 指令引導(dǎo):利用 MLLMs 解析用戶(hù)形式的編輯指令,理解編輯類(lèi)型、目標(biāo)對(duì)象以及編輯區(qū)域。
- 雙分支修復(fù)模型:一個(gè)分支處理背景信息,另一個(gè)分支根據(jù)指令生成編輯內(nèi)容,確保編輯結(jié)果與背景和諧一致。
- 通用性:擴(kuò)展了 BrushNet,能夠處理任意形狀的 mask,無(wú)需為不同類(lèi)型的 mask 訓(xùn)練單獨(dú)的模型。
- 交互式編輯:支持多輪交互,用戶(hù)可以在任何階段修改或優(yōu)化中間結(jié)果。
3. 技術(shù)架構(gòu)
BrushEdit 的架構(gòu)由兩個(gè)主要組件組成:編輯指導(dǎo)者(MLLM)和編輯指揮者(雙分支圖像修復(fù)模型)。編輯指導(dǎo)者解析用戶(hù)指令,識(shí)別編輯類(lèi)型、目標(biāo)對(duì)象和 mask 區(qū)域,并生成編輯后的圖像文本描述。編輯指揮者根據(jù)這些信息,利用基于Stable Diffusion 1.5的雙分支模型進(jìn)行圖像修復(fù),其中一個(gè)分支專(zhuān)注于保持未遮擋區(qū)域的完整性,另一個(gè)分支則根據(jù)文本描述生成新的內(nèi)容。
4. 實(shí)驗(yàn)結(jié)果
在圖像編輯和圖像修復(fù)基準(zhǔn)測(cè)試中,BrushEdit 在多個(gè)指標(biāo)上均取得了優(yōu)異的性能,包括mask區(qū)域的精準(zhǔn)性、編輯效果的連貫性和自然性、用戶(hù)交互度以及背景保真度等。實(shí)驗(yàn)結(jié)果表明,BrushEdit 能夠高效結(jié)合 MLLMs 和圖像修復(fù)模型,實(shí)現(xiàn)高質(zhì)量的圖像編輯和修復(fù)。
5. 總結(jié)
BrushEdit 提供了一種全新的、基于圖像修復(fù)的指令引導(dǎo)圖像編輯方法,它具有更高的靈活性、可控性和用戶(hù)友好性。通過(guò)整合 MLLMs 和雙分支圖像修復(fù)模型,BrushEdit 實(shí)現(xiàn)了高質(zhì)量的圖像編輯和修復(fù),為圖像編輯領(lǐng)域帶來(lái)了顯著的進(jìn)步。盡管存在一些局限性,如對(duì)基礎(chǔ)模型的依賴(lài),但其在圖像編輯和修復(fù)方面的優(yōu)越性能以及其靈活的架構(gòu),使其成為一個(gè)極具前景的圖像編輯框架。
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。