清華、華為等提出iVideoGPT:專攻交互式世界模型

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:清華、華為等提出iVideoGPT:專攻交互式世界模型
關(guān)鍵字:模型,華為,世界,視頻,數(shù)據(jù)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6666字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部iVideoGPT,滿足世界模型高交互性需求。近年來(lái),生成模型取得了顯著進(jìn)展,其中視頻生成正在成為一個(gè)新的前沿領(lǐng)域。這些生成視頻模型的一個(gè)重要應(yīng)用是,在多樣化的互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上以無(wú)監(jiān)督方式學(xué)習(xí),用于構(gòu)建預(yù)測(cè)世界模型。這些世界模型有望積累關(guān)于世界如何運(yùn)作的常識(shí)性知識(shí),從而能夠基于智能體的行為預(yù)測(cè)潛在的未來(lái)結(jié)果。
通過(guò)利用這些世界模型,采用基于強(qiáng)化學(xué)習(xí)的智能體可以在世界模型中進(jìn)行想象、推理和規(guī)劃,從而在現(xiàn)實(shí)世界中通過(guò)少量試驗(yàn)就能更安全、更有效地獲得新技能。盡管生成模型和世界模型有著基本的聯(lián)系,但用于視頻生成的生成模型和用于智能體學(xué)習(xí)的世界模型的發(fā)展之間仍然存在顯著的差距。主要挑戰(zhàn)之一是如何在交互性和可擴(kuò)展性之間取得最佳平衡。
在基于模型的強(qiáng)化學(xué)習(xí)領(lǐng)域,世界模型主要使用循環(huán)網(wǎng)絡(luò)架構(gòu)。這種設(shè)計(jì)允許在每一步中基于動(dòng)作傳遞觀察或潛在狀態(tài),從而促進(jìn)交互行為學(xué)習(xí)。然而,這些模型大多專注于游戲或模擬環(huán)境,數(shù)據(jù)簡(jiǎn)單,并且對(duì)大規(guī)模復(fù)雜的 in-the-wild 數(shù)據(jù)進(jìn)行建模的能力有限。
相比之下,互聯(lián)網(wǎng)規(guī)模的視頻生成模型可以合成逼真的長(zhǎng)視頻,這些視頻可以通過(guò)文本描述或未來(lái)動(dòng)作序列
原文鏈接:清華、華為等提出iVideoGPT:專攻交互式世界模型
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)