無直接數據可用，AI怎么學會「干活」？微軟團隊揭秘AI從語言到行動的進化之路

為LAMs的開發提供了首個實踐范例

原標題：無直接數據可用，AI怎么學會「干活」？微軟團隊揭秘AI從語言到行動的進化之路
文章來源：機器之心
內容字數：7855字

微軟團隊突破性研究：從語言到行動，構建大行動模型LAM

本文總結了微軟DKI團隊發表的技術報告，該報告詳細闡述了如何從零開始訓練一個大行動模型（LAM），從而實現AI從被動語言生成向主動行動生成的轉變。

1. LLM的局限性和LAM的優勢

傳統的LLM（如GPT系列）擅長文本生成，但在與物理或數字環境交互方面存在局限性，無法執行超出文本層面的操作。微軟團隊提出的LAM則具備三大特性：用戶意圖理解、行動生成能力以及動態規劃與適應能力，能夠將用戶的意圖轉化為各種形式的可執行步驟，并根據環境變化調整計劃，從而更好地完成復雜任務。

2. 從LLM到LAM的挑戰

構建LAM面臨三大挑戰：首先是數據積累的難題，LAM訓練需要大量任務-行動對數據，而這類數據通常難以獲取；其次是模型訓練的重大轉化，需要從文本生成模型轉變為具備任務規劃、動態執行和調整能力的模型；最后是離線評估的局限性，以及環境適配和線上評估的復雜性，需要在真實環境中測試LAM的實際性能。

3. 數據積累：從無到有的數據構建

為了解決數據稀缺問題，微軟團隊設計了一套兩階段的數據收集與處理流程：第一階段，從開源資源（如應用幫助文檔、WikiHow教程和搜索查詢記錄）收集任務-計劃數據，并通過數據增強技術擴充數據集；第二階段，將抽象的計劃步驟轉化為具體的行動序列，并在真實環境中執行驗證，最終生成結構化的任務-行動對。這個流程成功地從無數據狀態構建了LAM訓練所需的高質量數據集。

4. LAM的訓練過程：四個階段

LAM的訓練分為四個階段：第一階段，任務計劃預訓練，讓模型學習生成任務分解計劃；第二階段，專家知識學習，通過模仿學習讓模型執行具體操作；第三階段，自我探索提升，讓LAM在真實環境中嘗試完成任務，并積累新的成功經驗；第四階段，獎勵模型優化，利用強化學習提升模型的決策能力。

5. 實驗結果與結論

離線和線上實驗結果都表明，LAM在任務成功率、效率方面都顯著優于基線模型（GPT-4o）。LAM的成功為AI從被動語言生成向主動行動生成的轉變提供了新的思路，也為大行動模型的開發提供了首個實踐范例。

6. LAM的實際應用

經過訓練的LAM模型被集成到GUI智能體UFO的AppAgent中，通過與Windows操作系統交互，完成實際任務。這表明LAM具有良好的實際應用潛力。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # AI具身智能 # AI機器人控制 # 大型語言模型應用 # 無監督強化學習 # 模擬環境訓練

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

無直接數據可用，AI怎么學會「干活」？微軟團隊揭秘AI從語言到行動的進化之路

為LAMs的開發提供了首個實踐范例

微軟團隊突破性研究：從語言到行動，構建大行動模型LAM

1. LLM的局限性和LAM的優勢

2. 從LLM到LAM的挑戰

3. 數據積累：從無到有的數據構建

4. LAM的訓練過程：四個階段

5. 實驗結果與結論

6. LAM的實際應用

聯系作者

AI盈利難、機器人泡沫多！馬庫斯25年AI預測，隔空喊話馬斯克

震驚 AI 界！DeepSeek-R1 ：純RL打造推理王者，AI 自主學習里程碑「技術報告解讀」

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點