Latte一作馬鑫:DiT架構(gòu)在視頻生成模型中的應(yīng)用與擴(kuò)展 | 講座預(yù)告
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Latte一作馬鑫:DiT架構(gòu)在視頻生成模型中的應(yīng)用與擴(kuò)展 | 講座預(yù)告
關(guān)鍵字:視頻,模型,猩猩,人工智能,架構(gòu)
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
「智猩猩AI新青年講座」由智猩猩出品,致力于邀請青年學(xué)者,主講他們在生成式AI、LLM、AI Agent、CV等人工智能領(lǐng)域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。
「智猩猩AI新青年講座」現(xiàn)已完結(jié)238講,錯(cuò)過往期講座直播的朋友,可以點(diǎn)擊文章底部 “閱讀原文”進(jìn)行回看!近年來,文字轉(zhuǎn)視頻模型領(lǐng)域取得了令人矚目的成就。但當(dāng)前的文本驅(qū)動(dòng)視頻生成模型大多仍依賴于UNet作為核心網(wǎng)絡(luò)架構(gòu),這一選擇不僅制約了模型性能的提升,還難以實(shí)現(xiàn)大規(guī)模擴(kuò)展。相比之下,Transformer架構(gòu)因適合處理長序列數(shù)據(jù)和易于規(guī)模化而展現(xiàn)出獨(dú)特的優(yōu)勢。
基于以上分析,莫納什大學(xué)在讀博士馬鑫聯(lián)合上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)創(chuàng)新地提出了全球首個(gè)DiT類文生視頻開源模型Latte,旨在視頻生成領(lǐng)域率先探索構(gòu)建穩(wěn)定高效的超大型神經(jīng)網(wǎng)絡(luò)的新途徑。相關(guān)論文為《Latte: Latent Diff
原文鏈接:Latte一作馬鑫:DiT架構(gòu)在視頻生成模型中的應(yīng)用與擴(kuò)展 | 講座預(yù)告
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。