SuperEdit

SuperEdit – 字節跳動等機構推出的圖像編輯方法

SuperEdit是什么

SuperEdit是由字節跳動智能創作團隊與佛羅里達大學計算機視覺研究中心共同開發的一種圖像編輯工具。它通過指令引導的方式，利用優化的監督信號顯著提升圖像編輯的準確性與效果。SuperEdit通過對編輯指令的修正，確保原始圖像與編輯圖像的對齊更加精確，并引入對比監督信號以進一步優化模型的訓練過程。值得一提的是，SuperEdit無需依賴額外的視覺語言模型（VLM）或預訓練任務，僅依靠高質量的監督信號，在多個基準測試中展現了顯著的性能提升。

SuperEdit的主要功能

高精度圖像編輯：根據自然語言指令精準地對圖像進行編輯，支持多種編輯任務，包括全局、局部和風格調整等。
高效訓練：在少量訓練數據和較小模型規模的條件下實現高性能，顯著降低訓練成本。
保留原始圖像質量：在編輯過程中，盡量保持原始圖像的結構和細節，避免不必要的變動。

SuperEdit的技術原理

擴散模型的生成屬性：利用擴散模型在不同推理階段的特性指導編輯指令的修正。在早期階段，擴散模型專注于全局布局；中期階段則關注局部對象屬性；而后期階段則重視圖像的細節，這一過程中風格變化貫穿始終。
編輯指令修正：根據輸入的原始圖像與編輯圖像，生成描述兩者差異的編輯指令，定義統一的修正指南，以確保生成的指令準確反映實際變化。
對比監督信號：引入對比監督信號，通過生成錯誤的編輯指令創建正負樣本對，運用三元組損失函數進行模型訓練，以更好地區分正確與錯誤的指令。
高效訓練策略：SuperEdit在訓練中利用少量高質量的編輯數據，避免大規模數據集帶來的計算負擔。通過優化的監督信號，能夠在較少的數據和小型模型下實現與復雜架構相當甚至更佳的性能。
模型架構：基于InstructPix2Pix框架，利用預訓練的擴散模型（如Stable Diffusion）作為基礎，通過修正編輯指令和對比監督信號進行微調。