MagicTryOn

MagicTryOn – 浙大聯合vivo等機構推出的視頻虛擬試穿框架

MagicTryOn

MagicTryOn是浙江大學計算機科學與技術學院、vivo移動通信等機構聯手推出的創新視頻虛擬試穿框架。它基于前沿的視頻擴散Transformer技術，用更強大的擴散Transformer（DiT）架構取代傳統的U-Net，并結合全自注意力機制，實現了視頻的時空一致性建模。該框架通過精細的服裝細節保留策略和多條件引導，在圖像和視頻試穿方面均展現出卓越的性能，為用戶帶來逼真流暢的試穿體驗。

MagicTryOn：開啟虛擬試穿新紀元

MagicTryOn，一項由浙江大學計算機科學與技術學院、vivo移動通信等機構傾力打造的視頻虛擬試穿框架，正引領著時尚與科技的融合。它巧妙地運用了基于視頻擴散Transformer的技術，并以更具表現力的擴散Transformer（DiT）架構替代了傳統的U-Net，輔以全自注意力機制，從而實現了對視頻時空一致性的精準建模。憑借其獨到的服裝細節保留策略和多條件引導能力，MagicTryOn在圖像和視頻試穿領域均取得了顯著的突破，為用戶提供了前所未有的逼真試穿體驗。

核心功能：體驗無縫試穿的魅力

精細的服裝細節呈現：MagicTryOn能夠精準地模擬服裝的紋理、圖案和輪廓，確保在人物過程中服裝的真實感與穩定性，讓每一次試穿都宛如親身體驗。
流暢的時空一致性：框架能夠確保視頻中各幀之間的連貫性，有效避免服裝的閃爍和抖動，帶來絲滑流暢的試穿感受。
多維度條件引導：MagicTryOn支持基于文本描述、圖像特征、服裝標記和輪廓線等多種條件進行引導，從而生成更加真實、細致的試穿效果，滿足個性化需求。

技術解析：MagicTryOn的創新基石

擴散Transformer（DiT）架構：DiT的模塊化設計賦予了其強大的靈活性，能夠更有效地融入條件信息，從而將多級服裝特征整合到去噪過程中。DiT內置的全自注意力機制則能夠聯合建模視頻的時空一致性，捕捉幀內局部細節和幀間動態變化。
獨具匠心的服裝細節保留策略：
- 粗略策略：在嵌入階段，將服裝標記（garment tokens）注入輸入標記序列，并擴展旋轉位置編碼（RoPE）的網格大小，使得服裝標記與輸入標記能夠共享一致的位置編碼。
- 精細策略：在去噪階段，引入語義引導交叉注意力（SGCA）和特征引導交叉注意力（FGCA）模塊，從而提供細粒度的服裝細節引導。SGCA利用文本標記和CLIP圖像標記作為輸入，提供服裝的全局語義表示；FGCA則結合服裝標記和輪廓線標記，進一步注入詳細的局部信息。
掩碼感知損失（Mask-Aware Loss）：通過引入掩碼感知損失，模型能夠更加專注于服裝區域的生成，從而提升服裝區域的細節保真度和整體合成結果的真實感。
時空一致性建模：基于全自注意力機制，MagicTryOn聯合建模視頻的時空一致性，避免了傳統方法中空間和時間信息分別建模的局限性。