今日arXiv最熱NLP大模型論文:北京大學(xué)&快手發(fā)布統(tǒng)一的圖文視頻生成大模型Video-LaVIT
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱NLP大模型論文:北京大學(xué)&快手發(fā)布統(tǒng)一的圖文視頻生成大模型Video-LaVIT
關(guān)鍵字:視頻,模型,標(biāo)記,圖像,基準(zhǔn)
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):6510字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 芒果引言:探索視頻與語(yǔ)言模型的新融合隨著多模態(tài)大語(yǔ)言模型(LLMs)的新發(fā)展,人們?cè)絹?lái)越關(guān)注如何將它們從圖像-文本數(shù)據(jù)擴(kuò)展到更具信息量的真實(shí)世界視頻。與靜態(tài)圖像相比,視頻為有效的大規(guī)模預(yù)訓(xùn)練帶來(lái)了獨(dú)特的挑戰(zhàn),因?yàn)樾枰獙?duì)其時(shí)空動(dòng)態(tài)進(jìn)行建模。
針對(duì)視頻與語(yǔ)言聯(lián)合預(yù)訓(xùn)練的挑戰(zhàn),文章提出了高效的視頻分解方法,將視頻表示為關(guān)鍵幀和時(shí)間,并設(shè)計(jì)分詞器適配LLM,實(shí)現(xiàn)視頻、圖像和文本的統(tǒng)一生成預(yù)訓(xùn)練。應(yīng)用時(shí),生成的標(biāo)記被恢復(fù)為像素空間,用于創(chuàng)建視頻內(nèi)容。框架表現(xiàn)出對(duì)圖像和視頻內(nèi)容的理解和生成能力,具有競(jìng)爭(zhēng)力的性能。
論文標(biāo)題:Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
論文鏈接:https://arxiv.org/pdf/2402.03161.pdf
項(xiàng)目鏈接:https://video-lavit.github.io
視頻理解的挑戰(zhàn):從靜態(tài)圖像到動(dòng)態(tài)視頻的轉(zhuǎn)變現(xiàn)有的多模態(tài)LLMs主要集中在圖像-文本數(shù)據(jù)上,對(duì)于視頻模態(tài)的適應(yīng)性
原文鏈接:今日arXiv最熱NLP大模型論文:北京大學(xué)&快手發(fā)布統(tǒng)一的圖文視頻生成大模型Video-LaVIT
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專(zhuān)業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠(chǎng)中高管和AI公司創(chuàng)始人。一線(xiàn)作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠(chǎng),兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189