微軟華人團隊最新研究：從LLM到LAM，讓大模型真正具有「行動力」！

原標題：微軟華人團隊最新研究：從LLM到LAM，讓大模型真正具有「行動力」！
文章來源：新智元
內容字數：6294字

微軟大型行動模型LAM：AI從“”到“行動”的跨越

人工智能正經歷一場從語言模型(LLM)到大型行動模型(LAM)的性轉變。傳統的LLM擅長理解和生成文本，但僅限于“紙上談兵”。而LAM則更進一步，它不僅能理解指令，還能在軟件環境中自主執行任務，真正做到“行動勝于言辭”。

1. LAM的核心能力： 與LLM不同，LAM能夠將用戶的自然語言指令轉化為具體的行動步驟，例如在Microsoft Office中進行文檔編輯、表格處理等。這并非簡單的文本生成，而是直接在軟件環境中進行操作，極大地提升了實際應用價值。想象一下，你只需要用語音或文字告訴LAM“幫我買一件男士夾克”，它就能幫你完成從挑選款式到網購的全過程，這比LLM只能提供文本步驟的效率高出許多。

2. LAM的開發過程： LAM的訓練過程并非易事，它包含四個關鍵步驟：

任務分解與規劃： 將復雜任務分解成邏輯步驟，并制定詳細的執行計劃。
行動生成與執行： 將計劃轉化為具體的行動指令，例如GUI操作或API調用。
動態調整與優化： 根據執行過程中的反饋，調整行動策略，提高效率和成功率。
獎勵機制學習： 通過強化學習，根據任務完成情況給予獎勵或懲罰，進一步優化模型性能。

3. LAM的數據收集與構建： LAM的訓練依賴于高質量的數據。研究人員采用兩階段數據收集方法：

任務-計劃數據： 收集用戶請求（任務）及其對應的詳細步驟（計劃）。
任務-行動數據： 將計劃轉化為可在特定環境中執行的具體動作序列。

這些數據確保LAM既能進行高層次規劃，又能執行低層次操作。

4. LAM的性能評估： 研究人員將LAM集成到GUI智能體UFO中進行測試。結果顯示，LAM在Word環境中的任務成功率達到71%，顯著高于GPT-4o在相同條件下的63%。此外，LAM的執行速度也更快，每個任務平均耗時僅30秒。

5. LAM的未來展望： LAM的出現為辦公自動化、復雜任務處理等領域帶來了新的可能性，例如自動執行文檔編輯、表格處理等。雖然LAM目前仍面臨一些挑戰，例如在復雜環境中的錯誤操作可能帶來風險，但它無疑代表了AI發展的重要方向，預示著未來AI助手將能夠更積極地協助人類完成實際任務，朝著通用人工智能(AGI)邁進。

總而言之，LAM的出現標志著AI從簡單的語言理解向實際任務執行的重大飛躍，它不僅能“”，更能“行動”，為我們的生活和工作帶來更多便利。