本文介紹了一種新穎的基于修復的指令引導圖像編輯范式(IIIE)。
原標題:圖像修復和編輯大一統!騰訊&北大等聯合提出BrushEdit
文章來源:智猩猩GenAI
內容字數:12724字
BrushEdit: 一種基于修復的指令引導圖像編輯范式
本文介紹了BrushEdit,一個先進的圖像編輯框架,它克服了現有基于擴散模型的圖像編輯方法的局限性,實現了更靈活、可控和用戶友好的圖像編輯體驗。
1. 現有方法的不足
當前基于擴散模型的圖像編輯方法主要有兩類:基于反演的方法和基于指令的方法?;诜囱莸姆椒ㄔ谶M行大幅度修改時效果較差,因為反演噪聲的結構性限制了編輯的靈活性。而基于指令的方法通常是黑箱操作,用戶難以直接指定編輯區域和強度。
2. BrushEdit 的創新之處
BrushEdit 提出了一種新的圖像編輯范式,它基于圖像修復(inpainting)和指令引導。通過整合預訓練的多模態大語言模型(MLLMs)和雙分支圖像修復模型,BrushEdit 建立了一個代理協作框架,實現了指令引導的圖像編輯和修復。
具體而言,BrushEdit 的創新體現在以下幾個方面:
- 基于修復的編輯:采用圖像修復技術,避免了基于反演方法的局限性,能夠更好地處理大幅度修改。
- 指令引導:利用 MLLMs 解析用戶形式的編輯指令,理解編輯類型、目標對象以及編輯區域。
- 雙分支修復模型:一個分支處理背景信息,另一個分支根據指令生成編輯內容,確保編輯結果與背景和諧一致。
- 通用性:擴展了 BrushNet,能夠處理任意形狀的 mask,無需為不同類型的 mask 訓練單獨的模型。
- 交互式編輯:支持多輪交互,用戶可以在任何階段修改或優化中間結果。
3. 技術架構
BrushEdit 的架構由兩個主要組件組成:編輯指導者(MLLM)和編輯指揮者(雙分支圖像修復模型)。編輯指導者解析用戶指令,識別編輯類型、目標對象和 mask 區域,并生成編輯后的圖像文本描述。編輯指揮者根據這些信息,利用基于Stable Diffusion 1.5的雙分支模型進行圖像修復,其中一個分支專注于保持未遮擋區域的完整性,另一個分支則根據文本描述生成新的內容。
4. 實驗結果
在圖像編輯和圖像修復基準測試中,BrushEdit 在多個指標上均取得了優異的性能,包括mask區域的精準性、編輯效果的連貫性和自然性、用戶交互度以及背景保真度等。實驗結果表明,BrushEdit 能夠高效結合 MLLMs 和圖像修復模型,實現高質量的圖像編輯和修復。
5. 總結
BrushEdit 提供了一種全新的、基于圖像修復的指令引導圖像編輯方法,它具有更高的靈活性、可控性和用戶友好性。通過整合 MLLMs 和雙分支圖像修復模型,BrushEdit 實現了高質量的圖像編輯和修復,為圖像編輯領域帶來了顯著的進步。盡管存在一些局限性,如對基礎模型的依賴,但其在圖像編輯和修復方面的優越性能以及其靈活的架構,使其成為一個極具前景的圖像編輯框架。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。