谷歌推出視頻生成大型語(yǔ)言模型VideoPoet

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:谷歌推出視頻生成大型語(yǔ)言模型VideoPoet
關(guān)鍵字:視頻,模型,文本,音頻,圖像
文章來(lái)源:AI范兒
內(nèi)容字?jǐn)?shù):2042字
內(nèi)容摘要:
點(diǎn)擊上方藍(lán)字關(guān)注我們“Google推出VideoPoet,一款生成式AI系統(tǒng),通過(guò)文本等輸入創(chuàng)建和編輯視頻。與競(jìng)爭(zhēng)模型不同,VideoPoet整合多項(xiàng)功能于單一模型,包括文本轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻、視頻風(fēng)格化等。該模型利用多個(gè)標(biāo)記器跨視頻、圖像、音頻和文本進(jìn)行訓(xùn)練,可生成可變長(zhǎng)度、多樣風(fēng)格的視頻。Google 推出了 VideoPoet,這是一款新型生成式人工智能系統(tǒng),能夠通過(guò)文本和其他輸入創(chuàng)建和編輯視頻。
據(jù) Google 表示,VideoPoet是一款龐大的語(yǔ)言模型,專為各種視頻生成任務(wù)而設(shè)計(jì),包括文本轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻、視頻風(fēng)格化、視頻修復(fù)與拓展以及視頻轉(zhuǎn)音頻等。與競(jìng)爭(zhēng)模型不同,VideoPoet將許多功能集成到一個(gè)單一模型中,而不是依賴于為每個(gè)任務(wù)分別訓(xùn)練的組件。
VideoPoet使用多個(gè)標(biāo)記器(MAGVIT V2 用于視頻和圖像,SoundStream 用于音頻),以訓(xùn)練跨視頻、圖像、音頻和文本多模態(tài)的自回歸語(yǔ)言模型。一旦模型生成了在某個(gè)上下文中有條件的標(biāo)記,這些標(biāo)記可以通過(guò)標(biāo)記解碼器轉(zhuǎn)換回可視化表示。
VideoPoet能夠生成具有可變長(zhǎng)度、多種和樣式的視頻,具體取決于文
原文鏈接:谷歌推出視頻生成大型語(yǔ)言模型VideoPoet
聯(lián)系作者
文章來(lái)源:AI范兒
作者微信:AI_Insights
作者簡(jiǎn)介:智能未來(lái),始于Prompt!

粵公網(wǎng)安備 44011502001135號(hào)