視頻生成模型變身智能體:斯坦福Percy Liang等提出VideoAgent,竟能自我優(yōu)化
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:視頻生成模型變身智能體:斯坦福Percy Liang等提出VideoAgent,竟能自我優(yōu)化
關(guān)鍵字:視頻,模型,反饋,報(bào)告,成功率
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda現(xiàn)在正是「文本生視頻」賽道百花齊放的時(shí)代,而且其應(yīng)用場(chǎng)景非常多,比如生成創(chuàng)意視頻內(nèi)容、創(chuàng)建游戲場(chǎng)景、制作動(dòng)畫和電影。甚至有研究表明還能將視頻生成用作真實(shí)世界的模擬器,比如 OpenAI 今年初就發(fā)布過一份將視頻生成模型作為世界模擬器的技術(shù)報(bào)告,參閱機(jī)器之心報(bào)道《我在模擬世界!OpenAI 剛剛公布 Sora 技術(shù)細(xì)節(jié):是數(shù)據(jù)驅(qū)動(dòng)物理引擎》。
文本生視頻模型的這些近期應(yīng)用既有望實(shí)現(xiàn)互聯(lián)網(wǎng)規(guī)模級(jí)別的知識(shí)遷移(比如從生類視頻到生成機(jī)器人視頻),也有望打通實(shí)現(xiàn)通用智能體的道路(比如用單個(gè)策略控制不同環(huán)境中不同形態(tài)的機(jī)器人來執(zhí)行多種多樣的任務(wù))。
然而,現(xiàn)實(shí)情況是,文本生視頻模型的下游應(yīng)用還很有限,原因包括幻覺問題以及生成的視頻內(nèi)容不符合現(xiàn)實(shí)物理機(jī)制等。
雖然理論上可以通過擴(kuò)大數(shù)據(jù)集和模型大小來有效減輕這些問題,但對(duì)視頻生成模型來說,這會(huì)很困難。
部分原因是標(biāo)注和整理視頻的人力成本很高。另外,視頻生成方面還沒有一個(gè)非常適合大規(guī)模擴(kuò)展的架構(gòu)。
除了擴(kuò)大規(guī)模,LLM 領(lǐng)域的另一個(gè)重要突破是能整合外部反饋來提升生成質(zhì)量。那文本生視頻模型也能受益于這一思路嗎?
為了解答
原文鏈接:視頻生成模型變身智能體:斯坦福Percy Liang等提出VideoAgent,竟能自我優(yōu)化
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: