首批類Sora模型出現(xiàn)，色拉布上線Snap Video，效果優(yōu)于Pika、不輸Gen-2

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：首批類Sora模型出現(xiàn)，色拉布上線Snap Video，效果優(yōu)于Pika、不輸Gen-2
關(guān)鍵字：視頻,圖像,研究者,時(shí)間,模型
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：9833字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：杜偉、蛋醬文生視頻這個(gè)戰(zhàn)場(chǎng)，入局的玩家越來越多了。這次是閱后即焚 SnapChat 背后的公司。
最近，OpenAI 視頻生成模型 Sora 的爆火，給基于 Transformer 的擴(kuò)散模型重新帶來了一波熱度，比如 Sora 研發(fā)負(fù)責(zé)人之一 William Peebles 與紐約大學(xué)助理教授謝賽寧去年提出的 DiT（Diffusion Transformer）。
當(dāng)然，隨著視頻生成這波 AI 趨勢(shì)的繼續(xù)演進(jìn)，類似架構(gòu)的模型會(huì)越來越多。就在昨天，開發(fā)出 SnapChat 圖片分享軟件的 Snap 公司、特倫托大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布了類似 Sora 的文本生成視頻模型 Snap Video，這次他們使用到了可擴(kuò)展的時(shí)空 Transformer。
相關(guān)的論文《Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis》已經(jīng)放出。論文地址：https://arxiv.org/pdf/2402.14797.pdf
項(xiàng)目地址：https://snap-research.github.io/s

原文鏈接：首批類Sora模型出現(xiàn)，色拉布上線Snap Video，效果優(yōu)于Pika、不輸Gen-2