AIGC動態歡迎閱讀
原標題:ICML’24研討會杰出論文獎!清華AIR&商湯研究院提出全新的具身多模態表征預訓練方法 | 講座預告
關鍵字:智能,視覺,語言,模型,表征
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
近年來,以谷歌RT系列為代表的視覺-語言-控制模型(VLCM,Vision-Language-Control Model)受到廣泛關注。VLCM 智能體可以通過視覺理解環境,并執行人類語言所描述的任意任務,展現出了極強的 zero-shot 泛化能力。
相較于語言模型(LM),只考慮單一語言模態,視覺-語言模型(VLM)需要考慮視覺和語言兩個模態,而視覺-語言-控制模型(VLCM)則需要考慮視覺、語言和控制三個模態,在訓練需要海量的示教數據。因此,數據的缺乏也是具身智能、機器人學習面臨的最嚴重問題之一。
為了解決數據稀缺的問題,一個通用的解決方案是表征預訓練。然而,訓練這樣的表征是非常困難的,因為對于機器人的決策而言,一個高度抽象的語言指令所描述的是一種動態的變化過程。所以,傳統多模態表征預訓練需要考慮的是語言和單幀圖片的對齊,而具身智能中的多模態表征預訓練需要解決語言和視頻軌跡的對齊。
針對當前問題,清華大學AIR與商湯研究院等提出一種decision-centric的多模態表征預訓練方法DecisionNCE,清華大學智能產業研究院(AIR)四年級博士生李健雄為論文一作。與Deci
原文鏈接:ICML’24研討會杰出論文獎!清華AIR&商湯研究院提出全新的具身多模態表征預訓練方法 | 講座預告
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...