AIGC動態歡迎閱讀
原標題:視頻上下文學習!大模型學會“照貓畫虎”生成,結合模擬器還能精準控制真實環境交互,來自MSRA
關鍵字:視頻,示例,模型,解讀,上下文
文章來源:量子位
內容字數:0字
內容摘要:
Vid-ICL團隊 投稿量子位 | 公眾號 QbitAI視頻生成也能參考“上下文”?!
MSRA提出視頻上下文學習(Video In-Context Learning, Vid-ICL),讓大模型學會“照貓畫虎”式模仿生成。
Vid-ICL通過一段示例視頻來指導模型在新場景下的生成,使得生成結果可以在新場景下“模仿”示例視頻中完成的任務。
比如,示例視頻鏡頭視角向下移動(左),生成視頻同樣視角向下移動(右):
示例視頻物體向上移動(左),生成視頻同樣向上移動(右):
物體抓取也能模仿:
△左:示例視頻,機械臂抓取物體;右:生成視頻打開抽屜也可以按示例進行:
△左:示例視頻,打開中間的抽屜;右:生成視頻在相同的電風扇場景下,用不同示例視頻指導模型生成效果belike:
△左:示例視頻,鏡頭左移;右:生成視頻△左:示例視頻,鏡頭右移;右:生成視頻要知道,在一個理想的世界模型中,模型與外界環境的交互應當是多樣的。而大部分現有工作都聚焦在用文本作為主要的交互方式,這使得對生成結果細節和多樣性的控制變得困難。
而視頻是高度具象且通用的,能夠傳遞廣泛的信息如完成各種任務的示例,包括移動或抓取對象等
原文鏈接:視頻上下文學習!大模型學會“照貓畫虎”生成,結合模擬器還能精準控制真實環境交互,來自MSRA
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...