視頻上下文學(xué)習(xí)!大模型學(xué)會(huì)“照貓畫(huà)虎”生成,結(jié)合模擬器還能精準(zhǔn)控制真實(shí)環(huán)境交互,來(lái)自MSRA
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:視頻上下文學(xué)習(xí)!大模型學(xué)會(huì)“照貓畫(huà)虎”生成,結(jié)合模擬器還能精準(zhǔn)控制真實(shí)環(huán)境交互,來(lái)自MSRA
關(guān)鍵字:視頻,示例,模型,解讀,上下文
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Vid-ICL團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI視頻生成也能參考“上下文”?!
MSRA提出視頻上下文學(xué)習(xí)(Video In-Context Learning, Vid-ICL),讓大模型學(xué)會(huì)“照貓畫(huà)虎”式模仿生成。
Vid-ICL通過(guò)一段示例視頻來(lái)指導(dǎo)模型在新場(chǎng)景下的生成,使得生成結(jié)果可以在新場(chǎng)景下“模仿”示例視頻中完成的任務(wù)。
比如,示例視頻鏡頭視角向下移動(dòng)(左),生成視頻同樣視角向下移動(dòng)(右):
示例視頻物體向上移動(dòng)(左),生成視頻同樣向上移動(dòng)(右):
物體抓取也能模仿:
△左:示例視頻,機(jī)械臂抓取物體;右:生成視頻打開(kāi)抽屜也可以按示例進(jìn)行:
△左:示例視頻,打開(kāi)中間的抽屜;右:生成視頻在相同的電風(fēng)扇場(chǎng)景下,用不同示例視頻指導(dǎo)模型生成效果belike:
△左:示例視頻,鏡頭左移;右:生成視頻△左:示例視頻,鏡頭右移;右:生成視頻要知道,在一個(gè)理想的世界模型中,模型與外界環(huán)境的交互應(yīng)當(dāng)是多樣的。而大部分現(xiàn)有工作都聚焦在用文本作為主要的交互方式,這使得對(duì)生成結(jié)果細(xì)節(jié)和多樣性的控制變得困難。
而視頻是高度具象且通用的,能夠傳遞廣泛的信息如完成各種任務(wù)的示例,包括移動(dòng)或抓取對(duì)象等
原文鏈接:視頻上下文學(xué)習(xí)!大模型學(xué)會(huì)“照貓畫(huà)虎”生成,結(jié)合模擬器還能精準(zhǔn)控制真實(shí)環(huán)境交互,來(lái)自MSRA
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: