為LAMs的開發提供了首個實踐范例
原標題:無直接數據可用,AI怎么學會「干活」?微軟團隊揭秘AI從語言到行動的進化之路
文章來源:機器之心
內容字數:7855字
微軟團隊突破性研究:從語言到行動,構建大行動模型LAM
本文總結了微軟DKI團隊發表的技術報告,該報告詳細闡述了如何從零開始訓練一個大行動模型(LAM),從而實現AI從被動語言生成向主動行動生成的轉變。
1. LLM的局限性和LAM的優勢
傳統的LLM(如GPT系列)擅長文本生成,但在與物理或數字環境交互方面存在局限性,無法執行超出文本層面的操作。 微軟團隊提出的LAM則具備三大特性:用戶意圖理解、行動生成能力以及動態規劃與適應能力,能夠將用戶的意圖轉化為各種形式的可執行步驟,并根據環境變化調整計劃,從而更好地完成復雜任務。
2. 從LLM到LAM的挑戰
構建LAM面臨三大挑戰:首先是數據積累的難題,LAM訓練需要大量任務-行動對數據,而這類數據通常難以獲取;其次是模型訓練的重大轉化,需要從文本生成模型轉變為具備任務規劃、動態執行和調整能力的模型;最后是離線評估的局限性,以及環境適配和線上評估的復雜性,需要在真實環境中測試LAM的實際性能。
3. 數據積累:從無到有的數據構建
為了解決數據稀缺問題,微軟團隊設計了一套兩階段的數據收集與處理流程:第一階段,從開源資源(如應用幫助文檔、WikiHow教程和搜索查詢記錄)收集任務-計劃數據,并通過數據增強技術擴充數據集;第二階段,將抽象的計劃步驟轉化為具體的行動序列,并在真實環境中執行驗證,最終生成結構化的任務-行動對。這個流程成功地從無數據狀態構建了LAM訓練所需的高質量數據集。
4. LAM的訓練過程:四個階段
LAM的訓練分為四個階段:第一階段,任務計劃預訓練,讓模型學習生成任務分解計劃;第二階段,專家知識學習,通過模仿學習讓模型執行具體操作;第三階段,自我探索提升,讓LAM在真實環境中嘗試完成任務,并積累新的成功經驗;第四階段,獎勵模型優化,利用強化學習提升模型的決策能力。
5. 實驗結果與結論
離線和線上實驗結果都表明,LAM在任務成功率、效率方面都顯著優于基線模型(GPT-4o)。LAM的成功為AI從被動語言生成向主動行動生成的轉變提供了新的思路,也為大行動模型的開發提供了首個實踐范例。
6. LAM的實際應用
經過訓練的LAM模型被集成到GUI智能體UFO的AppAgent中,通過與Windows操作系統交互,完成實際任務。這表明LAM具有良好的實際應用潛力。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺