微軟37頁論文逆向工程Sora,得到了哪些結(jié)論?
AIGC動態(tài)歡迎閱讀
原標題:微軟37頁論文逆向工程Sora,得到了哪些結(jié)論?
關(guān)鍵字:報告,視頻,模型,圖像,文本
文章來源:機器之心
內(nèi)容字數(shù):23505字
內(nèi)容摘要:
機器之心報道
機器之心編輯部一篇論文回顧 Sora 文生視頻技術(shù)的背景、技術(shù)和應用。
追趕 Sora,成為了很多科技公司當下階段的新目標。研究者們好奇的是:Sora 是如何被 OpenAI 發(fā)掘出來的?未來又有哪些演進和應用方向?
Sora 的技術(shù)報告披露了一些技術(shù)細節(jié),但遠遠不足以窺其全貌。
在最近的一篇文章中,微軟研究院和理海大學的研究者根據(jù)已發(fā)表的技術(shù)報告和逆向工程,首次全面回顧了 Sora 的背景、相關(guān)技術(shù)、新興應用、當前局限和未來機遇。論文標題:Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
論文鏈接:https://arxiv.org/pdf/2402.17177.pdf
背景
在分析 Sora 之前,研究者首先盤點了視覺內(nèi)容生成技術(shù)的沿襲。
在深度學習之前,傳統(tǒng)的圖像生成技術(shù)依賴于基于手工創(chuàng)建特征的紋理合成和紋理映射等方法。這些方法在生成復雜而生動的圖像方面能力有限。
如圖 3 所示,在過去十年中,視覺類的生成模型經(jīng)歷了多樣化
原文鏈接:微軟37頁論文逆向工程Sora,得到了哪些結(jié)論?
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺