AIGC動態歡迎閱讀
原標題:清華軍團推出中國首個對標Sora的視頻大模型Vidu,扒一扒它背后的模型架構
關鍵字:模型,架構,視頻,網絡,核心
文章來源:夕小瑤科技說
內容字數:4825字
內容摘要:
夕小瑤科技說 原創作者 | 小戲就在前天,Vidu 在 2024 中關村論壇年會之中橫空出世。
伴隨著“中國首個”,“Sora 級視頻模型”,“模擬真實的物理世界”等關鍵詞下的刷屏式的報道,Vidu 一下成為國產視頻模型的一劑強心針。
盡管目前 Vidu 支持的視頻長度是 16 秒,尚未達到 Sora 的 60 秒級,但是單看 Vidu 的宣傳視頻,如果以 Sora 為對標,可以看出 Vidu 在如時空一致性、物理規律遵循以及多鏡頭等等方面都已經對 Sora 不遑多讓。
背靠清華軍團,提出全球首個Diffusion + Transformer架構U-ViT,早于Sora撇開視頻的質量不說,筆者發現了一個更的事情:
Vidu背后的模型架構U-ViT 和 Sora 的核心架構 Diffusion Transformer(DiT)完全一致,且更早于DiT的發表時間。
這家在 2023 年 3 月份成立的“清華軍團”生數科技,其實早在 2022 年 9 月,其創業團隊就發布了基于 Transformer 架構的底層統一網絡框架 U-ViT。
而Sora 的核心架構 Diffusion Tr
原文鏈接:清華軍團推出中國首個對標Sora的視頻大模型Vidu,扒一扒它背后的模型架構
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189