史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù)：DiT通用，速度提升10.6倍

AIGC動(dòng)態(tài)11個(gè)月前發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù)：DiT通用，速度提升10.6倍
關(guān)鍵字：注意力,視頻,模型,方法,步驟
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
機(jī)器之心編輯部DiT 都能用，生成視頻無質(zhì)量損失，也不需要訓(xùn)練。實(shí)時(shí) AI 視頻生成來了！
本周三，新加坡國立大學(xué)尤洋團(tuán)隊(duì)提出了業(yè)內(nèi)第一種可以實(shí)時(shí)輸出的，基于 DiT 的視頻生成方法。該技術(shù)名為 Pyramid Attention Broadcast （PAB）。通過減少冗余注意力計(jì)算，PAB 實(shí)現(xiàn)了高達(dá) 21.6 FPS 的幀率和 10.6 倍的加速，同時(shí)不會(huì)犧牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在內(nèi)的流行基于 DiT 的視頻生成模型的質(zhì)量。值得注意的是，作為一種不需要訓(xùn)練的方法，PAB 可以為任何未來基于 DiT 的視頻生成模型提供加速，讓其具備實(shí)時(shí)生成的能力。
自今年起，OpenAI 的 Sora 和其他基于 DiT 的視頻生成模型引起了 AI 領(lǐng)域的又一波浪潮。然而與圖像生成相比，人們對于視頻生成的關(guān)注點(diǎn)基本都在于質(zhì)量，很少有研究專注于探索如何加速 DiT 模型推理。加速視頻生成模型的推理對于生成式 AI 應(yīng)用來說已經(jīng)是當(dāng)務(wù)之急。
PAB 方法的出現(xiàn)，為我們打開了一條路。原始方法與 PAB 視頻生成速度的比較。作者在 Open

原文鏈接：史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù)：DiT通用，速度提升10.6倍