<strike id="qw886"></strike>

ICEdit

AI工具1天前更新 AI工具集

5 0 0

ICEdit – 浙江大合哈佛大學(xué)推出的指令式圖像編輯框架

ICEdit

ICEdit是什么

ICEdit（In-Context Edit）是由浙江大學(xué)和哈佛大合研發(fā)的指令式圖像編輯框架。它利用大規(guī)模擴(kuò)散變換器（Diffusion Transformer）的強(qiáng)大生成能力和上下文感知能力，通過自然語言指令對圖像進(jìn)行精確編輯。相較于傳統(tǒng)方法，ICEdit在訓(xùn)練數(shù)據(jù)和可調(diào)參數(shù)方面需求顯著降低，僅需0.1%和1%，在多輪和多任務(wù)編輯中表現(xiàn)突出。ICEdit具備開源、低成本及快速處理（單張圖片處理約9秒）的優(yōu)點(diǎn)，適合多種應(yīng)用場景。

ICEdit的主要功能

指令驅(qū)動的圖像修改：用戶可以通過自然語言指令，對圖像進(jìn)行精準(zhǔn)的變更，如替換背景、添加文字或更改人物服裝等。
連續(xù)編輯能力：支持多次編輯，每次操作基于之前的結(jié)果，非常適合復(fù)雜的創(chuàng)作需求。
藝術(shù)風(fēng)格轉(zhuǎn)換：能夠?qū)D像轉(zhuǎn)換為各種藝術(shù)風(fēng)格，例如水彩畫、漫畫等。
對象替換與增添：允許替換圖像中的元素或添加新對象，比如將人物更換為卡通角色。
高效處理速度：處理速度較快（每張圖像約9秒），適合快速生成和迭代。

ICEdit的技術(shù)原理

上下文編輯框架：采用“上下文提示”（In-Context Prompting）技術(shù)，將編輯指令融入生成提示中，模型根據(jù)提示生成編輯后的圖像。無需對模型架構(gòu)進(jìn)行復(fù)雜修改，從而避免傳統(tǒng)方法中的結(jié)構(gòu)調(diào)整困擾。模型通過上下文理解，直接生成符合指令的結(jié)果。
LoRA-MoE混合微調(diào)策略：結(jié)合低秩適配器（LoRA）和動態(tài)專家路由（Mixture-of-Experts，MoE）技術(shù)。LoRA通過低秩矩陣分解高效調(diào)整模型參數(shù)，適應(yīng)不同編輯任務(wù)，而MoE則動態(tài)選擇最適合當(dāng)前任務(wù)的專家模塊，提高編輯質(zhì)量和靈活性。僅需少量訓(xùn)練樣本（50K）進(jìn)行微調(diào)，顯著提高編輯成功率。
推理階段早期篩選策略：在推理過程中，利用視覺語言模型（VLM）對早期生成的噪聲樣本進(jìn)行評估，篩選出最符合編輯指令的初始噪聲。通過少量步驟（如4步）評估編輯效果，快速選擇最優(yōu)初始噪聲，進(jìn)一步提升編輯質(zhì)量。

ICEdit的項(xiàng)目地址

項(xiàng)目官網(wǎng)：https://river-zhang.github.io/ICEdit-gh-pages/
GitHub倉庫：https://github.com/River-Zhang/ICEdit
HuggingFace模型庫：https://huggingface.co/sanaka87/ICEdit-MoE-LoRA
arXiv技術(shù)論文：https://arxiv.org/pdf/2504.20690
在線體驗(yàn)Demo：https://huggingface.co/spaces/RiverZ/ICEdit

ICEdit的應(yīng)用場景

創(chuàng)意設(shè)計：將照片轉(zhuǎn)化為藝術(shù)風(fēng)格（如水彩畫），或增添創(chuàng)意元素，以用于設(shè)計和廣告。
影視制作：快速生成角色設(shè)計或場景概念圖，支持影視前期開發(fā)。
社交媒體：編輯個人照片（如更換背景、添加特效），制作吸引人的社交內(nèi)容。
教育領(lǐng)域：生成教學(xué)用圖，如將歷史人物轉(zhuǎn)為漫畫風(fēng)格，輔助教學(xué)過程。
商業(yè)廣告：快速制作產(chǎn)品宣傳圖，如更換背景、添加品牌標(biāo)志等。

常見問題

ICEdit是如何工作的？：ICEdit通過自然語言指令與上下文提示技術(shù)生成編輯圖像。用戶輸入指令后，模型根據(jù)上下文直接生成編輯效果。
使用ICEdit需要哪些資源？：ICEdit在訓(xùn)練數(shù)據(jù)和參數(shù)方面需求較低，僅需少量樣本進(jìn)行微調(diào)，降低了資源的使用。
ICEdit適合哪些用戶？：無論是設(shè)計師、內(nèi)容創(chuàng)作者，還是教育工作者，ICEdit都能滿足各種創(chuàng)作需求。
處理一張圖片需要多長時間？：處理單張圖像大約需要9秒，非常適合快速生成和迭代。

閱讀原文