爆火Sora參數(shù)規(guī)模僅30億？謝賽寧等大佬技術(shù)分析來(lái)了

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：爆火Sora參數(shù)規(guī)模僅30億？謝賽寧等大佬技術(shù)分析來(lái)了
關(guān)鍵字：報(bào)告,視頻,商標(biāo),字節(jié)跳動(dòng),模型
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：6666字

內(nèi)容摘要：

明敏豐色發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI就說(shuō)Sora有多火吧。
生成的視頻上線一個(gè)、瘋傳一個(gè)。
作者小哥新上傳的效果，很快引來(lái)圍觀。
失敗案例都讓人看得上癮。
將近1萬(wàn)人點(diǎn)贊。
學(xué)術(shù)圈更炸開(kāi)鍋了，各路大佬紛紛開(kāi)麥。
紐約大學(xué)助理教授謝賽寧（ResNeXt的一作）直言，Sora將改寫整個(gè)視頻生成領(lǐng)域。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan高呼，這就是視頻生成的GPT-3時(shí)刻啊！
尤其在技術(shù)報(bào)告發(fā)布后，討論變得更加有趣。因?yàn)槠渲兄T多細(xì)節(jié)不是十分明確，所以大佬們也只能猜測(cè)。
包括“Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎”、“Sora建立在DiT模型之上、參數(shù)可能僅30億”等等。
所以，Sora為啥能如此驚艷？它對(duì)視頻生成領(lǐng)域的意義是？這不，很快就有了一些可能的答案。
視頻生成的GPT-3時(shí)刻總的來(lái)說(shuō)，Sora是一個(gè)在不同時(shí)長(zhǎng)、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型，同時(shí)采用了Transformer架構(gòu)，也就是一種“擴(kuò)散型Transformer”。
關(guān)于技術(shù)細(xì)節(jié)，官方報(bào)告簡(jiǎn)單提了以下6點(diǎn)：
一是視覺(jué)數(shù)據(jù)的“創(chuàng)新轉(zhuǎn)化”。
與大語(yǔ)言模型中的token不同，Sora采用的是“Patc

原文鏈接：爆火Sora參數(shù)規(guī)模僅30億？謝賽寧等大佬技術(shù)分析來(lái)了