VPP – 清華和星動(dòng)紀(jì)元推出的首個(gè)AIGC機(jī)器人大模型

VPP(Video Prediction Policy)是由清華大學(xué)與星動(dòng)紀(jì)元聯(lián)合打造的首款基于AIGC技術(shù)的機(jī)器人智能大模型。依托預(yù)訓(xùn)練的視頻擴(kuò)散模型,VPP通過海量互聯(lián)網(wǎng)視頻數(shù)據(jù),精準(zhǔn)預(yù)測(cè)未來(lái)場(chǎng)景,進(jìn)而生成機(jī)器人動(dòng)作指令。該技術(shù)使機(jī)器人能夠提前感知環(huán)境變化,實(shí)現(xiàn)高頻率的動(dòng)作預(yù)判與執(zhí)行,同時(shí)支持不同人形機(jī)器人之間的靈活切換,大幅降低對(duì)高質(zhì)量真實(shí)機(jī)器人數(shù)據(jù)的依賴,推動(dòng)具身智能領(lǐng)域的技術(shù)進(jìn)步。
VPP簡(jiǎn)介
VPP是一種創(chuàng)新的視頻預(yù)測(cè)策略模型,由清華大學(xué)和星動(dòng)紀(jì)元聯(lián)合開發(fā)。它基于領(lǐng)先的視頻擴(kuò)散模型,結(jié)合龐大的互聯(lián)網(wǎng)視頻資源,能夠直接預(yù)測(cè)未來(lái)場(chǎng)景并生成相應(yīng)的機(jī)器人動(dòng)作。憑借其出色的前瞻能力,VPP實(shí)現(xiàn)了6至10赫茲的預(yù)測(cè)頻率和超過50赫茲的控制頻率,保證動(dòng)作的流暢與及時(shí)。它不僅支持多種人形機(jī)器人平臺(tái)的無(wú)縫切換,還極大降低了對(duì)昂貴且稀缺的真實(shí)機(jī)器人操作數(shù)據(jù)的需求。VPP在Calvin ABC-D基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,幾乎達(dá)到滿分,展示了其在復(fù)雜真實(shí)環(huán)境下靈巧操作的強(qiáng)大能力。通過開源,VPP為智能機(jī)器人領(lǐng)域注入了強(qiáng)勁動(dòng)力。
核心功能
- 未來(lái)場(chǎng)景的提前洞察:使機(jī)器人在執(zhí)行動(dòng)作前能夠“預(yù)見”環(huán)境變化,顯著增強(qiáng)適應(yīng)性和泛化能力。
- 高頻率預(yù)測(cè)與動(dòng)作執(zhí)行:支持6-10Hz的視頻預(yù)測(cè)頻率和50Hz以上的動(dòng)作控制頻率,確保機(jī)器人動(dòng)作連貫且反應(yīng)迅速。
- 跨平臺(tái)機(jī)器人學(xué)習(xí):能夠利用來(lái)自不同形態(tài)機(jī)器人及人類操作的視頻數(shù)據(jù),減少對(duì)專用機(jī)器人數(shù)據(jù)的依賴,降低訓(xùn)練成本。
- 多任務(wù)能力與廣泛泛化:在抓取、放置、堆疊、倒水、工具使用等復(fù)雜操作中表現(xiàn)出色,適應(yīng)多樣化的應(yīng)用需求。
- 可視化與調(diào)試輔助:通過預(yù)測(cè)生成的視頻,提前識(shí)別潛在失敗場(chǎng)景,方便開發(fā)者進(jìn)行針對(duì)性優(yōu)化和改進(jìn)。
技術(shù)原理
- 視頻擴(kuò)散模型的預(yù)測(cè)視覺表示:采用預(yù)訓(xùn)練的視頻擴(kuò)散模型(如Stable Video Diffusion),通過單步去噪技術(shù)生成對(duì)未來(lái)場(chǎng)景的視覺預(yù)測(cè)表示,包含當(dāng)前幀及未來(lái)幀信息。
- 動(dòng)作生成機(jī)制:利用Video Former模型聚合時(shí)空信息,從預(yù)測(cè)視覺表示中提煉動(dòng)作特征。結(jié)合擴(kuò)散策略(Diffusion Policy),實(shí)現(xiàn)動(dòng)作的平滑銜接與精準(zhǔn)執(zhí)行。
- 泛化與優(yōu)化:基于豐富的互聯(lián)網(wǎng)視頻和機(jī)器人操作數(shù)據(jù)訓(xùn)練,減少對(duì)高質(zhì)量真實(shí)機(jī)器人數(shù)據(jù)的依賴。支持跨機(jī)器人本體學(xué)習(xí),增強(qiáng)模型在不同機(jī)器人平臺(tái)上的適應(yīng)性和泛用性。
官方網(wǎng)站與項(xiàng)目資料
- 官網(wǎng)鏈接:https://video-prediction-policy.github.io/
- GitHub倉(cāng)庫(kù):https://github.com/roboterax/video-prediction-policy
- 技術(shù)論文(arXiv):https://arxiv.org/pdf/2412.14803
主要應(yīng)用場(chǎng)景
- 家庭服務(wù):協(xié)助完成倒水、物品搬運(yùn)等家務(wù),關(guān)愛老人和兒童,提升生活便利性。
- 工業(yè)制造:應(yīng)用于零件抓取、貨物搬運(yùn)和堆疊工作,顯著提高生產(chǎn)線效率與自動(dòng)化水平。
- 醫(yī)療輔助:支持手術(shù)器械遞送、康復(fù)訓(xùn)練輔助及病房物品傳遞,增強(qiáng)醫(yī)療服務(wù)能力。
- 教育與科研:幫助學(xué)生理解復(fù)雜操作流程,應(yīng)用于實(shí)驗(yàn)室操作和科研項(xiàng)目中,促進(jìn)教學(xué)與創(chuàng)新。
- 服務(wù)行業(yè):如餐廳送餐、酒店行李搬運(yùn)及公共場(chǎng)所導(dǎo)覽,提升服務(wù)質(zhì)量與用戶體驗(yàn)。
常見問題解答
- VPP如何降低對(duì)真實(shí)機(jī)器人數(shù)據(jù)的依賴?
VPP通過利用海量互聯(lián)網(wǎng)視頻與多機(jī)器人數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,結(jié)合跨平臺(tái)學(xué)習(xí)技術(shù),減少了對(duì)昂貴且難以獲取的真實(shí)機(jī)器人操作數(shù)據(jù)的需求。 - 支持哪些類型的機(jī)器人?
VPP支持多種人形機(jī)器人平臺(tái),能夠在不同機(jī)器人本體之間靈活遷移和應(yīng)用。 - 預(yù)測(cè)頻率和控制頻率分別是多少?
VPP實(shí)現(xiàn)了6-10Hz的視頻預(yù)測(cè)頻率和超過50Hz的機(jī)器人動(dòng)作控制頻率,確保動(dòng)作響應(yīng)快速且連貫。 - 如何幫助開發(fā)者優(yōu)化模型?
VPP通過生成預(yù)測(cè)視頻,提前發(fā)現(xiàn)潛在失敗場(chǎng)景,方便開發(fā)者進(jìn)行針對(duì)性調(diào)整和性能提升。 - 是否開源?
是的,VPP已在GitHub公開,方便研究人員和開發(fā)者共同推動(dòng)機(jī)器人智能領(lǐng)域的發(fā)展。

粵公網(wǎng)安備 44011502001135號(hào)