谷歌發(fā)布新大語言模型:零樣本生成10秒視頻達(dá)SOTA!網(wǎng)友:壓力給到Runway/Pika

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:谷歌發(fā)布新大語言模型:零樣本生成10秒視頻達(dá)SOTA!網(wǎng)友:壓力給到Runway/Pika
關(guān)鍵字:視頻,模型,畫面,動(dòng)作,文本
文章來源:量子位
內(nèi)容字?jǐn)?shù):3202字
內(nèi)容摘要:
明敏 發(fā)自 凹非寺量子位 | 公眾號 QbitAI你敢信?大熊貓都會打牌了!
看這毛茸茸的腦袋、抓牌的動(dòng)作……
而這其實(shí)都是AI生成的,還是零樣本那種。
這就是谷歌最新大語言模型VideoPoet。
它不僅沒有用視頻領(lǐng)域常用的擴(kuò)散模型,還零樣本實(shí)現(xiàn)了SOTA。相較于此前一些模型,畫面更加穩(wěn)定、動(dòng)作更加逼真,清晰度也直線up。
和Bard再合作一下,輕松搞定1分鐘長的視頻小片,從腳本到畫面全部不用人類插手。
這效果,讓網(wǎng)友們直呼:視頻生成進(jìn)化速度也太快了吧。
不少人都表示想玩!
有人還說,VideoPoet效果這么好,看來Runway和Pika要加速了!
畫面逼真動(dòng)作穩(wěn)定具體來看VideoPoet的能力非常全面。包括:
文本-視頻
圖像-視頻
視頻編輯
風(fēng)格化處理
畫面補(bǔ)充
文本到視頻任務(wù),視頻輸出長度可調(diào)整,而且可以基于文本內(nèi)容應(yīng)用一系列動(dòng)作和風(fēng)格。
圖像到視頻任務(wù),則能讓靜態(tài)圖片動(dòng)起來。比如一些世界名畫和照片,都可生成視頻。
同時(shí)也能調(diào)整視頻風(fēng)格,需要額外輸入一些文本,然后模型會預(yù)測視頻的光照和深度信息。
比如輸入“鐵獅子在熔爐的火光中咆哮”,原本無厘頭的太陽花獅子就變得兇猛威嚴(yán)起來
原文鏈接:谷歌發(fā)布新大語言模型:零樣本生成10秒視頻達(dá)SOTA!網(wǎng)友:壓力給到Runway/Pika
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號