<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        字節(jié)提出VideoWorld,從自回歸視頻生成模型獲取世界知識(shí)!

        AIGC動(dòng)態(tài)4個(gè)月前發(fā)布 智猩猩GenAI
        481 0 0

        VideoWorld:基于未標(biāo)注視頻數(shù)據(jù)訓(xùn)練的自回歸視頻生成模型

        字節(jié)提出VideoWorld,從自回歸視頻生成模型獲取世界知識(shí)!

        原標(biāo)題:字節(jié)提出VideoWorld,從自回歸視頻生成模型獲取世界知識(shí)!
        文章來(lái)源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):10972字

        VideoWorld: 從未標(biāo)記視頻中學(xué)習(xí)知識(shí)

        本文介紹了VideoWorld,一個(gè)基于未標(biāo)記視頻數(shù)據(jù)訓(xùn)練的自回歸視頻生成模型,它能夠僅從視覺(jué)輸入中學(xué)習(xí)復(fù)雜知識(shí),例如規(guī)則、推理和規(guī)劃能力。這項(xiàng)研究挑戰(zhàn)了當(dāng)前主要依賴文本數(shù)據(jù)的大型語(yǔ)言模型范式,并探索了視覺(jué)信息在知識(shí)學(xué)習(xí)中的重要性。

        1. 研究動(dòng)機(jī)與背景

        大型語(yǔ)言模型(LLMs)通過(guò)“下一個(gè)標(biāo)記預(yù)測(cè)”范式學(xué)習(xí)了顯著的世界知識(shí),但其知識(shí)獲取主要依賴于文本數(shù)據(jù),無(wú)法完全捕捉所有形式的知識(shí)或涵蓋現(xiàn)實(shí)世界中的大量信息。生物體,特別是靈長(zhǎng)類動(dòng)物,主要通過(guò)視覺(jué)信息學(xué)習(xí),這啟發(fā)了研究者探索深度生成模型是否能夠僅從視覺(jué)輸入中學(xué)習(xí)復(fù)雜知識(shí)。

        2. VideoWorld 模型架構(gòu)

        VideoWorld采用了一個(gè)基于自回歸視頻生成器的框架,包含VQ-VAE編碼器-解碼器和一個(gè)自回歸Transformer。為了提高學(xué)習(xí)效率,VideoWorld的核心組件是潛在動(dòng)態(tài)模型(LDM)。LDM通過(guò)壓縮每一幀到其后續(xù)幀的視覺(jué)變化為一組潛在代碼,從而實(shí)現(xiàn)視覺(jué)變化的緊湊表示,這對(duì)于長(zhǎng)期推理和規(guī)劃任務(wù)至關(guān)重要。LDM的輸出與自回歸Transformer無(wú)縫集成,共同生成視頻幀并進(jìn)行任務(wù)操作。

        3. 關(guān)鍵技術(shù):潛在動(dòng)態(tài)模型 (LDM)

        LDM旨在解決原始視頻數(shù)據(jù)冗余的問(wèn)題。通過(guò)使用查詢嵌入表示跨多個(gè)幀的視覺(jué)變化,LDM將豐富的視覺(jué)信息壓縮為緊湊的嵌入,提高了學(xué)習(xí)效率。實(shí)驗(yàn)結(jié)果表明,LDM顯著提高了模型的性能和學(xué)習(xí)速度,尤其是在需要長(zhǎng)期推理和規(guī)劃的任務(wù)中。

        4. 實(shí)驗(yàn)結(jié)果與分析

        VideoWorld在三個(gè)基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估:Video-GoBench、CALVIN和RLBench。

        1. Video-GoBench (圍棋): VideoWorld在該基準(zhǔn)測(cè)試中達(dá)到了5段專業(yè)水平,超過(guò)了基于強(qiáng)化學(xué)習(xí)的KataGo模型,證明了其在掌握復(fù)雜游戲規(guī)則和策略方面的能力。即使是參數(shù)規(guī)模最小的模型也表現(xiàn)出色,并且性能隨著模型規(guī)模的增加而持續(xù)提高。
        2. CALVIN (機(jī)器人控制): VideoWorld有效地學(xué)習(xí)了多樣化的控制操作,并在不同環(huán)境中進(jìn)行了泛化,接近了使用真實(shí)動(dòng)作標(biāo)簽監(jiān)督的模型的性能,這表明LDM有效地支持了基于視頻的知識(shí)學(xué)習(xí)。
        3. RLBench (機(jī)器人控制): VideoWorld在RLBench中也表現(xiàn)出良好的泛化能力,在不同的機(jī)器人環(huán)境中成功完成了任務(wù),接近Oracle模型的性能,這展示了其作為通用知識(shí)學(xué)習(xí)者的潛力。

        實(shí)驗(yàn)結(jié)果驗(yàn)證了兩個(gè)關(guān)鍵發(fā)現(xiàn):(1)模型可以僅從原始視頻中學(xué)習(xí)基本知識(shí);(2)視覺(jué)變化的表示對(duì)于知識(shí)學(xué)習(xí)至關(guān)重要。

        5. 結(jié)論

        VideoWorld成功地從未標(biāo)記視頻數(shù)據(jù)中學(xué)習(xí)了復(fù)雜知識(shí),證明了基于視頻的知識(shí)學(xué)習(xí)的可行性。潛在動(dòng)態(tài)模型的引入顯著提高了學(xué)習(xí)效率和效果。這項(xiàng)研究為從視覺(jué)數(shù)據(jù)中獲取知識(shí)開(kāi)辟了新的途徑,并為未來(lái)構(gòu)建能夠在現(xiàn)實(shí)世界中思考和行動(dòng)的人工智能系統(tǒng)奠定了基礎(chǔ)。


        聯(lián)系作者

        文章來(lái)源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 亚洲午夜av影院| 美女视频黄频a免费| 亚洲精品国产精品乱码不99 | 内射无码专区久久亚洲| 亚洲黄色中文字幕| 亚洲精品免费在线视频| 国产精品成人免费观看| 亚洲av中文无码乱人伦在线观看| 国产一级一片免费播放i| 99免费观看视频| 国产一二三四区乱码免费| 亚洲资源在线观看| 暖暖免费高清日本中文| 永久免费在线观看视频| 99国产精品免费视频观看| 在线观看肉片AV网站免费| a级毛片免费观看网站| 国产精品手机在线亚洲| 亚洲欧美日韩中文二区| 夜夜春亚洲嫩草影院| www.亚洲色图| 免费va人成视频网站全| 亚洲国产精品免费视频| 岛国精品一区免费视频在线观看 | 大学生一级特黄的免费大片视频| 亚洲免费视频观看| 222www在线观看免费| 毛片无码免费无码播放 | 亚洲国产一区国产亚洲| 亚洲AV无码精品无码麻豆| 久久91亚洲人成电影网站| 亚洲人精品午夜射精日韩 | 免费国产黄网站在线看| 国产成人亚洲精品电影| 黄页网站在线免费观看| 一级A毛片免费观看久久精品| 一区二区免费在线观看| 巨胸狂喷奶水视频www网站免费| baoyu777永久免费视频| 日本免费在线中文字幕| 国产精品1024永久免费视频 |