爆火Sora參數(shù)規(guī)模僅30億?謝賽寧等大佬技術(shù)分析來(lái)了

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:爆火Sora參數(shù)規(guī)模僅30億?謝賽寧等大佬技術(shù)分析來(lái)了
關(guān)鍵字:報(bào)告,視頻,商標(biāo),字節(jié)跳動(dòng),模型
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):6666字
內(nèi)容摘要:
明敏 豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI就說(shuō)Sora有多火吧。
生成的視頻上線一個(gè)、瘋傳一個(gè)。
作者小哥新上傳的效果,很快引來(lái)圍觀。
失敗案例都讓人看得上癮。
將近1萬(wàn)人點(diǎn)贊。
學(xué)術(shù)圈更炸開(kāi)鍋了,各路大佬紛紛開(kāi)麥。
紐約大學(xué)助理教授謝賽寧(ResNeXt的一作)直言,Sora將改寫整個(gè)視頻生成領(lǐng)域。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan高呼,這就是視頻生成的GPT-3時(shí)刻啊!
尤其在技術(shù)報(bào)告發(fā)布后,討論變得更加有趣。因?yàn)槠渲兄T多細(xì)節(jié)不是十分明確,所以大佬們也只能猜測(cè)。
包括“Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎”、“Sora建立在DiT模型之上、參數(shù)可能僅30億”等等。
所以,Sora為啥能如此驚艷?它對(duì)視頻生成領(lǐng)域的意義是?這不,很快就有了一些可能的答案。
視頻生成的GPT-3時(shí)刻總的來(lái)說(shuō),Sora是一個(gè)在不同時(shí)長(zhǎng)、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型,同時(shí)采用了Transformer架構(gòu),也就是一種“擴(kuò)散型Transformer”。
關(guān)于技術(shù)細(xì)節(jié),官方報(bào)告簡(jiǎn)單提了以下6點(diǎn):
一是視覺(jué)數(shù)據(jù)的“創(chuàng)新轉(zhuǎn)化”。
與大語(yǔ)言模型中的token不同,Sora采用的是“Patc
原文鏈接:爆火Sora參數(shù)規(guī)模僅30億?謝賽寧等大佬技術(shù)分析來(lái)了
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)