被誤解的「中文版Sora」背后,字節(jié)跳動有哪些技術(shù)?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:被誤解的「中文版Sora」背后,字節(jié)跳動有哪些技術(shù)?
關(guān)鍵字:字節(jié)跳動,模型,視頻,圖像,研究者
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):12381字
內(nèi)容摘要:
機(jī)器之心報(bào)道
作者:蛋醬2024 開年,OpenAI 就在生成式 AI 領(lǐng)域扔下了重磅:Sora。
這幾年,視頻生成領(lǐng)域的技術(shù)迭代持續(xù)加速,很多科技公司也公布了相關(guān)技術(shù)進(jìn)展和落地成果。在此之前,Pika、Runway 都曾推出過類似產(chǎn)品,但 Sora 放出的 Demo,顯然以一己之力抬高了視頻生成領(lǐng)域的標(biāo)準(zhǔn)。
在今后的這場競爭中,哪家公司將率先打造出超越 Sora 的產(chǎn)品,仍是未知數(shù)。
國內(nèi)這邊,目光聚集于一眾科技大廠。
此前有消息稱,字節(jié)跳動在 Sora 發(fā)布之前就研發(fā)出了一款名為 Boximator 的視頻生成模型。
Boximator 提供了一種能夠精確控制視頻中物體的生成方法。用戶無需編寫復(fù)雜的文本提示,可以直接在參考圖像中通過在物體周圍畫方框來選擇目標(biāo),然后添加一些方框和線條來定義目標(biāo)的結(jié)束位置或跨幀的整個(gè)路徑,如下圖所示:對此,字節(jié)跳動保持了低調(diào)的態(tài)度:相關(guān)人士回復(fù)媒體,Boximator 是視頻生成領(lǐng)域控制對象的技術(shù)方法研究項(xiàng)目。目前還無法作為完善的產(chǎn)品落地,距離國外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時(shí)長等方面還有很大差距。
在對應(yīng)的技術(shù)論文介紹(ht
原文鏈接:被誤解的「中文版Sora」背后,字節(jié)跳動有哪些技術(shù)?
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺