<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        字節(jié)提出VideoWorld,從自回歸視頻生成模型獲取世界知識(shí)!

        AIGC動(dòng)態(tài)6個(gè)月前發(fā)布 智猩猩GenAI
        486 0 0

        VideoWorld:基于未標(biāo)注視頻數(shù)據(jù)訓(xùn)練的自回歸視頻生成模型

        字節(jié)提出VideoWorld,從自回歸視頻生成模型獲取世界知識(shí)!

        原標(biāo)題:字節(jié)提出VideoWorld,從自回歸視頻生成模型獲取世界知識(shí)!
        文章來(lái)源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):10972字

        VideoWorld: 從未標(biāo)記視頻中學(xué)習(xí)知識(shí)

        本文介紹了VideoWorld,一個(gè)基于未標(biāo)記視頻數(shù)據(jù)訓(xùn)練的自回歸視頻生成模型,它能夠僅從視覺(jué)輸入中學(xué)習(xí)復(fù)雜知識(shí),例如規(guī)則、推理和規(guī)劃能力。這項(xiàng)研究挑戰(zhàn)了當(dāng)前主要依賴文本數(shù)據(jù)的大型語(yǔ)言模型范式,并探索了視覺(jué)信息在知識(shí)學(xué)習(xí)中的重要性。

        1. 研究動(dòng)機(jī)與背景

        大型語(yǔ)言模型(LLMs)通過(guò)“下一個(gè)標(biāo)記預(yù)測(cè)”范式學(xué)習(xí)了顯著的世界知識(shí),但其知識(shí)獲取主要依賴于文本數(shù)據(jù),無(wú)法完全捕捉所有形式的知識(shí)或涵蓋現(xiàn)實(shí)世界中的大量信息。生物體,特別是靈長(zhǎng)類動(dòng)物,主要通過(guò)視覺(jué)信息學(xué)習(xí),這啟發(fā)了研究者探索深度生成模型是否能夠僅從視覺(jué)輸入中學(xué)習(xí)復(fù)雜知識(shí)。

        2. VideoWorld 模型架構(gòu)

        VideoWorld采用了一個(gè)基于自回歸視頻生成器的框架,包含VQ-VAE編碼器-解碼器和一個(gè)自回歸Transformer。為了提高學(xué)習(xí)效率,VideoWorld的核心組件是潛在動(dòng)態(tài)模型(LDM)。LDM通過(guò)壓縮每一幀到其后續(xù)幀的視覺(jué)變化為一組潛在代碼,從而實(shí)現(xiàn)視覺(jué)變化的緊湊表示,這對(duì)于長(zhǎng)期推理和規(guī)劃任務(wù)至關(guān)重要。LDM的輸出與自回歸Transformer無(wú)縫集成,共同生成視頻幀并進(jìn)行任務(wù)操作。

        3. 關(guān)鍵技術(shù):潛在動(dòng)態(tài)模型 (LDM)

        LDM旨在解決原始視頻數(shù)據(jù)冗余的問(wèn)題。通過(guò)使用查詢嵌入表示跨多個(gè)幀的視覺(jué)變化,LDM將豐富的視覺(jué)信息壓縮為緊湊的嵌入,提高了學(xué)習(xí)效率。實(shí)驗(yàn)結(jié)果表明,LDM顯著提高了模型的性能和學(xué)習(xí)速度,尤其是在需要長(zhǎng)期推理和規(guī)劃的任務(wù)中。

        4. 實(shí)驗(yàn)結(jié)果與分析

        VideoWorld在三個(gè)基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估:Video-GoBench、CALVIN和RLBench。

        1. Video-GoBench (圍棋): VideoWorld在該基準(zhǔn)測(cè)試中達(dá)到了5段專業(yè)水平,超過(guò)了基于強(qiáng)化學(xué)習(xí)的KataGo模型,證明了其在掌握復(fù)雜游戲規(guī)則和策略方面的能力。即使是參數(shù)規(guī)模最小的模型也表現(xiàn)出色,并且性能隨著模型規(guī)模的增加而持續(xù)提高。
        2. CALVIN (機(jī)器人控制): VideoWorld有效地學(xué)習(xí)了多樣化的控制操作,并在不同環(huán)境中進(jìn)行了泛化,接近了使用真實(shí)動(dòng)作標(biāo)簽監(jiān)督的模型的性能,這表明LDM有效地支持了基于視頻的知識(shí)學(xué)習(xí)。
        3. RLBench (機(jī)器人控制): VideoWorld在RLBench中也表現(xiàn)出良好的泛化能力,在不同的機(jī)器人環(huán)境中成功完成了任務(wù),接近Oracle模型的性能,這展示了其作為通用知識(shí)學(xué)習(xí)者的潛力。

        實(shí)驗(yàn)結(jié)果驗(yàn)證了兩個(gè)關(guān)鍵發(fā)現(xiàn):(1)模型可以僅從原始視頻中學(xué)習(xí)基本知識(shí);(2)視覺(jué)變化的表示對(duì)于知識(shí)學(xué)習(xí)至關(guān)重要。

        5. 結(jié)論

        VideoWorld成功地從未標(biāo)記視頻數(shù)據(jù)中學(xué)習(xí)了復(fù)雜知識(shí),證明了基于視頻的知識(shí)學(xué)習(xí)的可行性。潛在動(dòng)態(tài)模型的引入顯著提高了學(xué)習(xí)效率和效果。這項(xiàng)研究為從視覺(jué)數(shù)據(jù)中獲取知識(shí)開(kāi)辟了新的途徑,并為未來(lái)構(gòu)建能夠在現(xiàn)實(shí)世界中思考和行動(dòng)的人工智能系統(tǒng)奠定了基礎(chǔ)。


        聯(lián)系作者

        文章來(lái)源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 无码亚洲成a人在线观看| 亚洲AV一二三区成人影片| 亚洲 自拍 另类小说综合图区| 曰皮全部过程视频免费国产30分钟| 国产人成免费视频| 国产av无码专区亚洲av桃花庵| 亚洲A∨无码无在线观看| 亚洲日本中文字幕天天更新| 成年免费大片黄在线观看com| 未满十八18禁止免费无码网站| 67194熟妇在线永久免费观看| 国产高清免费的视频| 中文字幕亚洲第一在线| 亚洲精品av无码喷奶水糖心| 91在线免费视频| 最近2019中文字幕免费看最新 | 亚洲日本乱码卡2卡3卡新区| 一级毛片完整版免费播放一区| 亚洲黄色免费观看| 亚洲一区二区三区在线播放| 亚洲国产综合精品| 波多野结衣免费一区视频| 国产精品免费看久久久久| 色妞www精品视频免费看| 日韩视频在线精品视频免费观看| 亚洲一级特黄无码片| a级毛片免费播放| 亚洲首页在线观看| 国产精品自在自线免费观看| 一级毛片免费不卡直观看| 亚洲gv白嫩小受在线观看| 成人a毛片视频免费看| 亚洲av无码一区二区三区不卡 | 亚洲人成电影网站免费| 免费人成在线观看网站视频| 亚洲AV无码乱码麻豆精品国产| 免费无码又爽又刺激毛片| 亚洲va在线va天堂va手机| 免费人成年激情视频在线观看| 两个人www免费高清视频| 九月婷婷亚洲综合在线|