GPDiT

GPDiT – 清華北大聯(lián)合階躍星辰等推出的視頻生成模型

GPDiT

GPDiT是什么

GPDiT（Generative Pre-trained Autoregressive Diffusion Transformer）是由北京大學、清華大學、StepFun公司及中國科學技術(shù)大學共同研發(fā)的一種前沿視頻生成模型。該模型巧妙地結(jié)合了擴散模型與自回歸模型的優(yōu)點，通過自回歸方式有效預(yù)測潛在的未來幀，能夠自然地建模動態(tài)及其語義一致性。GPDiT還引入了一種輕量級的因果注意力機制，以降低計算成本，并采用無參數(shù)的旋轉(zhuǎn)基時間條件策略，成功編碼時間信息。GPDiT在視頻生成、視頻表示以及少樣本學習等任務(wù)中展現(xiàn)了卓越的性能，證明了其在多種視頻建模應(yīng)用中的廣泛適應(yīng)性和靈活性。

GPDiT的主要功能

高質(zhì)量視頻生成：生成具有高時間一致性和流暢的長序列視頻。
視頻表示學習：結(jié)合自回歸建模與擴散過程，深度學習視頻的語義和動態(tài)表示，以用于后續(xù)任務(wù)。
少樣本學習：能夠迅速適應(yīng)多種視頻處理任務(wù)，如風格轉(zhuǎn)換和邊緣檢測等。
多任務(wù)學習：支持多種視頻處理功能，包括灰度轉(zhuǎn)換、深度估計和人物檢測等。

GPDiT的技術(shù)原理

自回歸擴散框架：通過自回歸預(yù)測未來的潛在幀，自然建模動態(tài)與語義一致性。
輕量級因果注意力：引入輕量級因果注意力機制，避免在訓(xùn)練過程中對干凈幀間的注意力計算，從而降低計算成本，同時不影響生成效果。
旋轉(zhuǎn)基時間條件機制：提出一種無參數(shù)的旋轉(zhuǎn)基時間條件策略，將噪聲注入過程重新定義為數(shù)據(jù)與噪聲分量在復(fù)平面上的旋轉(zhuǎn)，去除了adaLN-Zero及相關(guān)參數(shù)，有效地編碼時間信息。
連續(xù)潛在空間：在連續(xù)潛在空間中進行建模，增強了生成質(zhì)量與表示能力。

GPDiT的項目地址

arXiv技術(shù)論文：https://arxiv.org/pdf/2505.07344

GPDiT的應(yīng)用場景

視頻創(chuàng)作：用于生成高質(zhì)量視頻，廣泛應(yīng)用于廣告、影視、動畫等領(lǐng)域。
視頻編輯：實現(xiàn)風格轉(zhuǎn)換、色彩調(diào)整、分辨率提升等編輯功能。
少樣本學習：快速適應(yīng)人物檢測、邊緣檢測等多種任務(wù)。
內(nèi)容理解：自動進行視頻內(nèi)容的標注、分類與檢索。
創(chuàng)意生成：激發(fā)藝術(shù)家和設(shè)計師的靈感，生成具有藝術(shù)風格的視頻。

常見問題

GPDiT的主要優(yōu)勢是什么？ GPDiT結(jié)合了擴散模型和自回歸模型的優(yōu)勢，能夠高效生成高質(zhì)量的視頻，并在多項任務(wù)中表現(xiàn)出色。
GPDiT適合哪些領(lǐng)域的應(yīng)用？ GPDiT廣泛適用于視頻創(chuàng)作、編輯、少樣本學習及內(nèi)容理解等多個領(lǐng)域。
如何獲取GPDiT的技術(shù)文檔？ 您可以通過訪問arXiv獲取GPDiT的技術(shù)論文。

閱讀原文