清華團隊國產“Sora”火了！畫面效果對標OpenAI，長度可達16秒，還能讀懂物理規律

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：清華團隊國產“Sora”火了！畫面效果對標OpenAI，長度可達16秒，還能讀懂物理規律
關鍵字：視頻,畫面,模型,架構,鏡頭
文章來源：量子位
內容字數：8518字

內容摘要：

允中發自凹非寺量子位 | 公眾號 QbitAISora席卷世界，也掀起了全球競逐AI視頻生成的熱潮。
就在今天，國內又有一支短片引發關注。
視頻來自生數科技聯合清華大學最新發布的視頻大模型「Vidu」。
從官宣消息看，「Vidu」支持一鍵生成長達16秒、分辨率達1080p的高清視頻內容。
更令人驚喜的是，「Vidu」畫面效果非常接近Sora，在多鏡頭語言、時間和空間一致性、遵循物理規律等方面表現都十分出色，而且還能虛構出真實世界不存在的超現實主義畫面，這是當前的視頻生成模型難以實現的。
并且實現這般效果，背后團隊只用了兩個月的時間。
全面對標Sora3月中旬，生數科技聯合創始人兼CEO唐家渝就曾公開表示：“今年內一定能達到Sora目前版本的效果。”
現在，在生成時長、時空一致性、鏡頭語言、物理模擬等方面，確實能看到「Vidu」在短時間內已經逼近Sora水平。
長度突破10秒大關「Vidu」生成的視頻不再是持續幾秒的「GIF」，而是達到了16秒，并且做到了畫面連續流暢，且有細節、邏輯連貫。
盡管都是畫面，但幾乎不會出現穿模、鬼影、不符合現實規律的問題。
△提示：一艘木頭玩具船

原文鏈接：清華團隊國產“Sora”火了！畫面效果對標OpenAI，長度可達16秒，還能讀懂物理規律