国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

InstructMove

InstructMove – 東京大合 Adobe 推出基于指令的圖像編輯模型

InstructMove是什么

InstructMove是由東京大學(xué)與Adobe公司聯(lián)合開發(fā)的一款基于指令的圖像編輯模型。該模型通過分析視頻幀之間的變化，學(xué)習(xí)如何根據(jù)用戶指令進(jìn)行圖像處理。它運(yùn)用多模態(tài)大型語言模型（MLLMs）生成描述幀對變換的編輯指令，具備在保持內(nèi)容一致性的基礎(chǔ)上，執(zhí)行復(fù)雜的非剛性編輯任務(wù)的能力，例如調(diào)整主體的姿勢、改變面部表情和視角等。InstructMove利用真實(shí)視頻幀作為數(shù)據(jù)源，確保編輯過程的自然性和真實(shí)性，有效克服了合成數(shù)據(jù)集在復(fù)雜編輯任務(wù)中的不足。此外，InstructMove支持基于掩碼等控制機(jī)制進(jìn)行精準(zhǔn)的局部編輯，進(jìn)一步提升了其在實(shí)際應(yīng)用中的靈活性和實(shí)用性。

InstructMove

InstructMove的主要功能

非剛性編輯：能夠根據(jù)指令調(diào)整圖像中主體的姿勢、表情等非剛性特征。
視角調(diào)整：按指令改變圖像的拍攝視角，例如將相機(jī)視角向左或向右移動，以改變圖像的構(gòu)圖和視覺效果。
元素重新排列：對圖像中的元素進(jìn)行重新排序或移動，例如將玩具的腿放在一起，使鳥的尾巴更為顯眼，以滿足特定編輯需求。
精確局部編輯：結(jié)合掩碼等控制機(jī)制，支持對圖像特定區(qū)域進(jìn)行精確的局部編輯，實(shí)現(xiàn)更細(xì)致的修改效果。

InstructMove的技術(shù)原理

數(shù)據(jù)集構(gòu)建
- 視頻幀采樣：從互聯(lián)網(wǎng)視頻中獲取幀對，確保幀對之間存在有意義的變化，例如主體姿勢的變化、元素的移動或相機(jī)視角的調(diào)整，從而積累大量自然且真實(shí)的圖像變換樣本。
- 多模態(tài)語言模型生成指令：運(yùn)用多模態(tài)大型語言模型（如GPT-4o或Pixtral-12B）分析采樣得到的幀對差異，生成準(zhǔn)確的編輯指令。
模型架構(gòu)與訓(xùn)練
- 預(yù)訓(xùn)練模型微調(diào)：在構(gòu)建的數(shù)據(jù)集上微調(diào)已有的文本到圖像（T2I）模型，如Stable Diffusion。
- 空間條件策略：引入空間條件策略，將參考圖像與噪聲輸入在空間維度上進(jìn)行拼接，而非傳統(tǒng)的通道拼接方式。
- 去噪網(wǎng)絡(luò)訓(xùn)練：將拼接后的輸入送入去噪U-Net網(wǎng)絡(luò)，預(yù)測噪聲圖，計算預(yù)測噪聲圖與原始噪聲圖之間的差異，以優(yōu)化模型參數(shù)，準(zhǔn)確根據(jù)編輯指令對目標(biāo)圖像進(jìn)行去噪和重建，實(shí)現(xiàn)圖像編輯。
控制機(jī)制集成
- 掩碼引導(dǎo)：支持與掩碼等控制機(jī)制集成，實(shí)現(xiàn)精確的局部編輯。在推理階段，利用掩碼控制編輯區(qū)域，將更新后的潛在表示與參考潛在表示進(jìn)行融合，以修改圖像的特定部分。
- 其他空間控制：與ControlNet等可控擴(kuò)散模型集成，接受用戶提供的額外視覺線索（如草圖或骨架關(guān)鍵點(diǎn)），以實(shí)現(xiàn)更復(fù)雜和精確的圖像編輯操作。

InstructMove的項目地址

項目官網(wǎng)：ljzycmd.github.io/projects/InstructMove
arXiv技術(shù)論文：https://arxiv.org/pdf/2412.12087v1

InstructMove的應(yīng)用場景

影視后期制作：特效師可調(diào)整科幻電影中外星生物角色的表情，以更好地符合劇情需求，渲染出憤怒的情緒。
廣告創(chuàng)意設(shè)計：設(shè)計師可以為汽車廣告調(diào)整賽車的視角和背景元素，突出新車型的速度和，吸引消費(fèi)者的目光。
室內(nèi)設(shè)計：室內(nèi)設(shè)計師可調(diào)整臥室床頭柜的位置和窗簾樣式，以滿足客戶對美觀和實(shí)用性的要求，營造出溫馨舒適的睡眠環(huán)境。
藝術(shù)教育：老師在繪畫課程中可調(diào)整人物的動作，幫助學(xué)生理解動作與情感的關(guān)系，深化他們對藝術(shù)創(chuàng)作的理解。
個人照片編輯：個人用戶可以調(diào)整聚會照片中的表情，使其更加自然輕松，以便分享到社交平臺，獲得朋友的點(diǎn)贊與好評。

閱讀原文