圖像修復(fù)和編輯大一統(tǒng)！騰訊&北大等聯(lián)合提出BrushEdit

本文介紹了一種新穎的基于修復(fù)的指令引導(dǎo)圖像編輯范式（IIIE）。

原標(biāo)題：圖像修復(fù)和編輯大一統(tǒng)！騰訊&北大等聯(lián)合提出BrushEdit
文章來(lái)源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：12724字

BrushEdit: 一種基于修復(fù)的指令引導(dǎo)圖像編輯范式

本文介紹了BrushEdit，一個(gè)先進(jìn)的圖像編輯框架，它克服了現(xiàn)有基于擴(kuò)散模型的圖像編輯方法的局限性，實(shí)現(xiàn)了更靈活、可控和用戶(hù)友好的圖像編輯體驗(yàn)。

1. 現(xiàn)有方法的不足

當(dāng)前基于擴(kuò)散模型的圖像編輯方法主要有兩類(lèi)：基于反演的方法和基于指令的方法。基于反演的方法在進(jìn)行大幅度修改時(shí)效果較差，因?yàn)榉囱菰肼暤慕Y(jié)構(gòu)性限制了編輯的靈活性。而基于指令的方法通常是黑箱操作，用戶(hù)難以直接指定編輯區(qū)域和強(qiáng)度。

2. BrushEdit 的創(chuàng)新之處

BrushEdit 提出了一種新的圖像編輯范式，它基于圖像修復(fù)（inpainting）和指令引導(dǎo)。通過(guò)整合預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型（MLLMs）和雙分支圖像修復(fù)模型，BrushEdit 建立了一個(gè)代理協(xié)作框架，實(shí)現(xiàn)了指令引導(dǎo)的圖像編輯和修復(fù)。

具體而言，BrushEdit 的創(chuàng)新體現(xiàn)在以下幾個(gè)方面：

基于修復(fù)的編輯：采用圖像修復(fù)技術(shù)，避免了基于反演方法的局限性，能夠更好地處理大幅度修改。
指令引導(dǎo)：利用 MLLMs 解析用戶(hù)形式的編輯指令，理解編輯類(lèi)型、目標(biāo)對(duì)象以及編輯區(qū)域。
雙分支修復(fù)模型：一個(gè)分支處理背景信息，另一個(gè)分支根據(jù)指令生成編輯內(nèi)容，確保編輯結(jié)果與背景和諧一致。
通用性：擴(kuò)展了 BrushNet，能夠處理任意形狀的 mask，無(wú)需為不同類(lèi)型的 mask 訓(xùn)練單獨(dú)的模型。
交互式編輯：支持多輪交互，用戶(hù)可以在任何階段修改或優(yōu)化中間結(jié)果。

3. 技術(shù)架構(gòu)

BrushEdit 的架構(gòu)由兩個(gè)主要組件組成：編輯指導(dǎo)者（MLLM）和編輯指揮者（雙分支圖像修復(fù)模型）。編輯指導(dǎo)者解析用戶(hù)指令，識(shí)別編輯類(lèi)型、目標(biāo)對(duì)象和 mask 區(qū)域，并生成編輯后的圖像文本描述。編輯指揮者根據(jù)這些信息，利用基于Stable Diffusion 1.5的雙分支模型進(jìn)行圖像修復(fù)，其中一個(gè)分支專(zhuān)注于保持未遮擋區(qū)域的完整性，另一個(gè)分支則根據(jù)文本描述生成新的內(nèi)容。

4. 實(shí)驗(yàn)結(jié)果

在圖像編輯和圖像修復(fù)基準(zhǔn)測(cè)試中，BrushEdit 在多個(gè)指標(biāo)上均取得了優(yōu)異的性能，包括mask區(qū)域的精準(zhǔn)性、編輯效果的連貫性和自然性、用戶(hù)交互度以及背景保真度等。實(shí)驗(yàn)結(jié)果表明，BrushEdit 能夠高效結(jié)合 MLLMs 和圖像修復(fù)模型，實(shí)現(xiàn)高質(zhì)量的圖像編輯和修復(fù)。

5. 總結(jié)

BrushEdit 提供了一種全新的、基于圖像修復(fù)的指令引導(dǎo)圖像編輯方法，它具有更高的靈活性、可控性和用戶(hù)友好性。通過(guò)整合 MLLMs 和雙分支圖像修復(fù)模型，BrushEdit 實(shí)現(xiàn)了高質(zhì)量的圖像編輯和修復(fù)，為圖像編輯領(lǐng)域帶來(lái)了顯著的進(jìn)步。盡管存在一些局限性，如對(duì)基礎(chǔ)模型的依賴(lài)，但其在圖像編輯和修復(fù)方面的優(yōu)越性能以及其靈活的架構(gòu)，使其成為一個(gè)極具前景的圖像編輯框架。

聯(lián)系作者

文章來(lái)源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下公眾號(hào)之一，深入關(guān)注大模型與AI智能體，及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

閱讀原文

# AIGC動(dòng)態(tài)# 圖像修復(fù)算法 # 基于筆刷的圖像編輯 # 大模型圖像修復(fù)# 神經(jīng)網(wǎng)絡(luò)圖像編輯 # 跨模態(tài)圖像編輯

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

圖像修復(fù)和編輯大一統(tǒng)！騰訊&北大等聯(lián)合提出BrushEdit

本文介紹了一種新穎的基于修復(fù)的指令引導(dǎo)圖像編輯范式（IIIE）。

BrushEdit: 一種基于修復(fù)的指令引導(dǎo)圖像編輯范式

1. 現(xiàn)有方法的不足

2. BrushEdit 的創(chuàng)新之處

3. 技術(shù)架構(gòu)

4. 實(shí)驗(yàn)結(jié)果

5. 總結(jié)

聯(lián)系作者

蘋(píng)果全年新品一次劇透完：iPhone大變樣

小米汽車(chē)工廠(chǎng) 2 月共開(kāi)放 16 場(chǎng)公眾參觀(guān)/微軟組建新 AI 團(tuán)隊(duì)/曝黃仁勛本周來(lái)華，英偉達(dá)反對(duì)美國(guó) AI 出口限制

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)