AIGC動態歡迎閱讀
原標題:爆火Sora參數規模僅30億?謝賽寧等大佬技術分析來了
關鍵字:報告,視頻,商標,字節跳動,模型
文章來源:量子位
內容字數:6666字
內容摘要:
明敏 豐色 發自 凹非寺量子位 | 公眾號 QbitAI就說Sora有多火吧。
生成的視頻上線一個、瘋傳一個。
作者小哥新上傳的效果,很快引來圍觀。
失敗案例都讓人看得上癮。
將近1萬人點贊。
學術圈更炸開鍋了,各路大佬紛紛開麥。
紐約大學助理教授謝賽寧(ResNeXt的一作)直言,Sora將改寫整個視頻生成領域。
英偉達高級研究科學家Jim Fan高呼,這就是視頻生成的GPT-3時刻啊!
尤其在技術報告發布后,討論變得更加有趣。因為其中諸多細節不是十分明確,所以大佬們也只能猜測。
包括“Sora是一個數據驅動的物理引擎”、“Sora建立在DiT模型之上、參數可能僅30億”等等。
所以,Sora為啥能如此驚艷?它對視頻生成領域的意義是?這不,很快就有了一些可能的答案。
視頻生成的GPT-3時刻總的來說,Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型,同時采用了Transformer架構,也就是一種“擴散型Transformer”。
關于技術細節,官方報告簡單提了以下6點:
一是視覺數據的“創新轉化”。
與大語言模型中的token不同,Sora采用的是“Patc
原文鏈接:爆火Sora參數規模僅30億?謝賽寧等大佬技術分析來了
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...