AI首次實時生成視頻！尤洋團隊新作，網(wǎng)友：這是新紀元

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：AI首次實時生成視頻！尤洋團隊新作，網(wǎng)友：這是新紀元
關(guān)鍵字：注意力,視頻,團隊,差異,步驟
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

一水發(fā)自凹非寺量子位 | 公眾號 QbitAI尤洋團隊新作，首個基于DiT的實時視頻生成方法來了！
先來直觀感受一下效果（右側(cè)為新方法）：
這是團隊在Open-Sora上，使用5個4s（192幀）480p分辨率視頻進行的測試。
新方法名為Pyramid Attention Broadcast（PAB），由新加坡國立大學尤洋以及3位學生推出。
具體來說，PAB通過減少冗余注意力計算，可實現(xiàn)高達21.6FPS和10.6倍加速，并且不會犧牲基于DiT的流行視頻生成模型（包括Open-Sora、Open-Sora-Plan和Latte）的質(zhì)量。
作為一種免訓練方法，PAB可為將來任何基于DiT的視頻生成模型提供實時功能。
看完效果對比，網(wǎng)友們紛紛驚嘆：
這將是新紀元。
也引來了眾多專業(yè)人士的轉(zhuǎn)發(fā)和點評，如MIT博士Yilun Du表示：
是一個展示了如何將視頻生成加速到實時速度的酷炫工作！可能會為視頻策略和模擬的現(xiàn)實世界用例開辟新的領域。
那么，新方法具體如何實時生成視頻這個難題的呢？
減少冗余注意力計算一開始，團隊比較了當前擴散步驟與前一步驟的注意力輸出差異。
這些差異通過均方誤差（

原文鏈接：AI首次實時生成視頻！尤洋團隊新作，網(wǎng)友：這是新紀元