中山大學和字節發布「視頻虛擬試穿」擴散模型VITON-DiT，一鍵生成換裝后視頻！

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：中山大學和字節發布「視頻虛擬試穿」擴散模型VITON-DiT，一鍵生成換裝后視頻！
關鍵字：字節跳動,視頻,服裝,圖像,注意力
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 任同學
視頻虛擬試穿技術日益受到關注，然而現有的工作局限于將服裝圖像轉移到姿勢和背景簡單的視頻上，對于隨意拍攝的視頻則效果不佳。最近，Sora 揭示了 Diffusion Transformer (DiT) 在生成具有真實場景的逼真視頻方面的可擴展性，可以說是風頭無兩。正是在這樣的背景下，中山大學和字節跳動團隊探索并提出第一個基于 DiT 的視頻虛擬試穿框架 VITON-DiT，一鍵就能生成換裝后視頻了！
論文題目：VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers
論文鏈接：http://arxiv.org/abs/2405.18326
論文單位：中山大學、字節跳動
引言▲圖 1.視頻虛擬試穿系統旨在通過視頻為目標人物穿上所需的服裝，同時保持其動作和身份。這項技術在電子商務和娛樂等實際應用中具有巨大的潛力。現有的大部分工作都集中在基于圖像的試穿上，例如基于生成對抗網絡(GANs)的圖像試穿。
盡管圖像生成質量令人印象深

原文鏈接：中山大學和字節發布「視頻虛擬試穿」擴散模型VITON-DiT，一鍵生成換裝后視頻！

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文