InstructMove – 東京大合 Adobe 推出基于指令的圖像編輯模型
InstructMove是什么
InstructMove是由東京大學(xué)與Adobe公司聯(lián)合開發(fā)的一款基于指令的圖像編輯模型。該模型通過分析視頻幀之間的變化,學(xué)習(xí)如何根據(jù)用戶指令進(jìn)行圖像處理。它運(yùn)用多模態(tài)大型語言模型(MLLMs)生成描述幀對變換的編輯指令,具備在保持內(nèi)容一致性的基礎(chǔ)上,執(zhí)行復(fù)雜的非剛性編輯任務(wù)的能力,例如調(diào)整主體的姿勢、改變面部表情和視角等。InstructMove利用真實(shí)視頻幀作為數(shù)據(jù)源,確保編輯過程的自然性和真實(shí)性,有效克服了合成數(shù)據(jù)集在復(fù)雜編輯任務(wù)中的不足。此外,InstructMove支持基于掩碼等控制機(jī)制進(jìn)行精準(zhǔn)的局部編輯,進(jìn)一步提升了其在實(shí)際應(yīng)用中的靈活性和實(shí)用性。

InstructMove的主要功能
- 非剛性編輯:能夠根據(jù)指令調(diào)整圖像中主體的姿勢、表情等非剛性特征。
- 視角調(diào)整:按指令改變圖像的拍攝視角,例如將相機(jī)視角向左或向右移動,以改變圖像的構(gòu)圖和視覺效果。
- 元素重新排列:對圖像中的元素進(jìn)行重新排序或移動,例如將玩具的腿放在一起,使鳥的尾巴更為顯眼,以滿足特定編輯需求。
- 精確局部編輯:結(jié)合掩碼等控制機(jī)制,支持對圖像特定區(qū)域進(jìn)行精確的局部編輯,實(shí)現(xiàn)更細(xì)致的修改效果。
InstructMove的技術(shù)原理
- 數(shù)據(jù)集構(gòu)建
- 視頻幀采樣:從互聯(lián)網(wǎng)視頻中獲取幀對,確保幀對之間存在有意義的變化,例如主體姿勢的變化、元素的移動或相機(jī)視角的調(diào)整,從而積累大量自然且真實(shí)的圖像變換樣本。
- 多模態(tài)語言模型生成指令:運(yùn)用多模態(tài)大型語言模型(如GPT-4o或Pixtral-12B)分析采樣得到的幀對差異,生成準(zhǔn)確的編輯指令。
- 模型架構(gòu)與訓(xùn)練
- 預(yù)訓(xùn)練模型微調(diào):在構(gòu)建的數(shù)據(jù)集上微調(diào)已有的文本到圖像(T2I)模型,如Stable Diffusion。
- 空間條件策略:引入空間條件策略,將參考圖像與噪聲輸入在空間維度上進(jìn)行拼接,而非傳統(tǒng)的通道拼接方式。
- 去噪網(wǎng)絡(luò)訓(xùn)練:將拼接后的輸入送入去噪U-Net網(wǎng)絡(luò),預(yù)測噪聲圖,計算預(yù)測噪聲圖與原始噪聲圖之間的差異,以優(yōu)化模型參數(shù),準(zhǔn)確根據(jù)編輯指令對目標(biāo)圖像進(jìn)行去噪和重建,實(shí)現(xiàn)圖像編輯。
- 控制機(jī)制集成
- 掩碼引導(dǎo):支持與掩碼等控制機(jī)制集成,實(shí)現(xiàn)精確的局部編輯。在推理階段,利用掩碼控制編輯區(qū)域,將更新后的潛在表示與參考潛在表示進(jìn)行融合,以修改圖像的特定部分。
- 其他空間控制:與ControlNet等可控擴(kuò)散模型集成,接受用戶提供的額外視覺線索(如草圖或骨架關(guān)鍵點(diǎn)),以實(shí)現(xiàn)更復(fù)雜和精確的圖像編輯操作。
InstructMove的項目地址
- 項目官網(wǎng):ljzycmd.github.io/projects/InstructMove
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.12087v1
InstructMove的應(yīng)用場景
- 影視后期制作:特效師可調(diào)整科幻電影中外星生物角色的表情,以更好地符合劇情需求,渲染出憤怒的情緒。
- 廣告創(chuàng)意設(shè)計:設(shè)計師可以為汽車廣告調(diào)整賽車的視角和背景元素,突出新車型的速度和,吸引消費(fèi)者的目光。
- 室內(nèi)設(shè)計:室內(nèi)設(shè)計師可調(diào)整臥室床頭柜的位置和窗簾樣式,以滿足客戶對美觀和實(shí)用性的要求,營造出溫馨舒適的睡眠環(huán)境。
- 藝術(shù)教育:老師在繪畫課程中可調(diào)整人物的動作,幫助學(xué)生理解動作與情感的關(guān)系,深化他們對藝術(shù)創(chuàng)作的理解。
- 個人照片編輯:個人用戶可以調(diào)整聚會照片中的表情,使其更加自然輕松,以便分享到社交平臺,獲得朋友的點(diǎn)贊與好評。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號