視頻生成產(chǎn)品 PixVerse 版本大更新!支持一鍵生成5段、最長 40S 連續(xù)視頻
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:視頻生成產(chǎn)品 PixVerse 版本大更新!支持一鍵生成5段、最長 40S 連續(xù)視頻
關(guān)鍵字:視頻,模型,用戶,產(chǎn)品,架構(gòu)
文章來源:Founder Park
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
今年6 月份起,視頻生成賽道持續(xù)涌現(xiàn)新的產(chǎn)品,從可靈到 Luma、Runway Gen3,模型能力和產(chǎn)品化效果越來越卷。
7 月 24 日,愛詩科技正式發(fā)布視頻生成產(chǎn)品 PixVerse V2。新版本產(chǎn)品采用 Diffusion+Transformer(DiT)基礎(chǔ)架構(gòu),提升了模型能力。
PixVerse V2 這次上線將提供給全球用戶使用,它能夠在保證風(fēng)格一致性前提下,快速制作出多個(gè) 8 秒的短視頻片段,還可以實(shí)現(xiàn)長達(dá) 40 秒的視頻。01采用 DiT 架構(gòu)多個(gè)技術(shù)創(chuàng)新PixVerse V2 采用了行業(yè)領(lǐng)先的 DiT 模型架構(gòu),通過模型訓(xùn)練,實(shí)現(xiàn)了視頻大模型的 Scaling Law。在多個(gè)技術(shù)層面,PixVerse V2 也采用了獨(dú)創(chuàng)的創(chuàng)新技術(shù)。
第一點(diǎn),在 Diffusion 時(shí)空建模方面。
愛詩獨(dú)創(chuàng)了一種時(shí)空注意力建模機(jī)制,且是「更合理的」,它優(yōu)于時(shí)空分離以及 fullseq 架構(gòu)。
這種機(jī)制對時(shí)間、空間的感知力都更好,對復(fù)雜場景的處理也更好。第二,在文本理解方面。
PixVerse V2 利用強(qiáng)大的多模態(tài)模型,能夠精準(zhǔn)提取文本信息,實(shí)現(xiàn)文本與視頻內(nèi)容對齊。
模型的理解和表達(dá)能
原文鏈接:視頻生成產(chǎn)品 PixVerse 版本大更新!支持一鍵生成5段、最長 40S 連續(xù)視頻
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介: