BrushEdit是騰訊與北京大學等多家機構聯合開發的一款前沿圖像編輯框架,作為BrushNet模型的高級版本,它結合了多模態大型語言模型(MLLMs)和雙分支圖像修復模型,支持基于指令的圖像編輯和修復。用戶可以通過自然語言指令進行靈活且多輪次的編輯操作,輕松實現對圖像的添加、刪除等大幅度修改,同時保持背景的自然連貫性,極大提升了圖像編輯的靈活性和用戶體驗。
BrushEdit是什么
BrushEdit是騰訊、北京大學、香港中文大學及清華大學共同推出的先進圖像編輯框架,作為BrushNet模型的升級版本,框架融合了多模態大型語言模型(MLLMs)與雙分支圖像修復模型,能夠實現基于指令的圖像編輯和修復。用戶可以使用自然語言進行形式的、多輪交互式的編輯操作,BrushEdit不僅支持對圖像進行大幅度的修改,同時還能保持背景的自然性,提升了用戶的編輯體驗。
BrushEdit的主要功能
- 指令驅動的圖像編輯:用戶可以通過自然語言指令來指導圖像編輯任務,例如添加、刪除或修改圖像中的元素。
- 多輪交互式編輯:支持用戶在編輯過程中進行多輪互動,逐步調整和完善編輯效果。
- 形式的掩碼編輯:用戶可以繪制掩碼來指定編輯區域,無需使用精確的分割工具。
- 背景和前景的處理:框架能夠有效區分編輯區域(前景)與非編輯區域(背景),確保編輯操作不影響圖像的其他部分。
- 智能圖像修復:自動填充和修復圖像中的缺失區域或指定區域,例如去除不必要的對象或填補空白。
BrushEdit的技術原理
- 多模態大型語言模型(MLLMs):使用預訓練的MLLMs解析用戶的形式編輯指令,識別編輯類型和目標對象。
- 雙分支圖像修復模型:框架采用雙分支結構,其中一個分支處理掩碼區域的圖像生成,另一個分支負責處理未掩碼區域的背景信息。
- 代理協作機制:通過代理(代理指導者與代理指揮者)之間的協作,實現編輯類別分類、主要對象識別、掩碼獲取及編輯區域修復。
- 特征融合技術:將用戶指令和掩碼信息融合至圖像修復模型中,引導模型在掩碼區域內生成符合指令的內容。
- 零卷積層與特征插入:通過零卷積層將凍結的預訓練模型與可訓練的BrushEdit模型連接,降低早期訓練階段的噪聲,逐層集成特征以實現精細控制。
- 混合微調策略:結合隨機掩碼和分割掩碼的微調策略,使模型能夠處理多種掩碼任務,不受特定掩碼類型的限制。
BrushEdit的項目地址
- 項目官網:liyaowei-stu.github.io/project/BrushEdit
- GitHub倉庫:https://github.com/TencentARC/BrushEdit
- HuggingFace模型庫:https://huggingface.co/TencentARC/BrushEdit
- arXiv技術論文:https://arxiv.org/pdf/2412.10316
BrushEdit的應用場景
- 內容創作與編輯:藝術家和設計師能夠輕松進行創意圖像編輯,快速實現復雜的視覺效果和藝術創作。
- 媒體與娛樂:在電影和視頻制作中,修復老舊或損壞的影像資料,或在后期制作中去除不需要的元素。
- 廣告與營銷:廣告制作人能夠快速更改廣告圖像中的產品或背景,適應不同的營銷策略。
- 社交媒體:用戶可以在社交媒體上分享經過編輯的圖片,例如節日裝飾、虛擬試穿服裝等。
- 電子商務:電商平臺可以編輯產品圖片,例如更換產品背景、調整產品顏色或添加促銷標簽。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...