史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù):DiT通用,速度提升10.6倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù):DiT通用,速度提升10.6倍
關(guān)鍵字:注意力,視頻,模型,方法,步驟
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部DiT 都能用,生成視頻無質(zhì)量損失,也不需要訓(xùn)練。實(shí)時(shí) AI 視頻生成來了!
本周三,新加坡國立大學(xué)尤洋團(tuán)隊(duì)提出了業(yè)內(nèi)第一種可以實(shí)時(shí)輸出的,基于 DiT 的視頻生成方法。該技術(shù)名為 Pyramid Attention Broadcast (PAB)。通過減少冗余注意力計(jì)算,PAB 實(shí)現(xiàn)了高達(dá) 21.6 FPS 的幀率和 10.6 倍的加速,同時(shí)不會(huì)犧牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在內(nèi)的流行基于 DiT 的視頻生成模型的質(zhì)量。值得注意的是,作為一種不需要訓(xùn)練的方法,PAB 可以為任何未來基于 DiT 的視頻生成模型提供加速,讓其具備實(shí)時(shí)生成的能力。
自今年起,OpenAI 的 Sora 和其他基于 DiT 的視頻生成模型引起了 AI 領(lǐng)域的又一波浪潮。然而與圖像生成相比,人們對于視頻生成的關(guān)注點(diǎn)基本都在于質(zhì)量,很少有研究專注于探索如何加速 DiT 模型推理。加速視頻生成模型的推理對于生成式 AI 應(yīng)用來說已經(jīng)是當(dāng)務(wù)之急。
PAB 方法的出現(xiàn),為我們打開了一條路。原始方法與 PAB 視頻生成速度的比較。作者在 Open
原文鏈接:史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù):DiT通用,速度提升10.6倍
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)