原標題:微軟華人團隊最新研究:從LLM到LAM,讓大模型真正具有「行動力」!
文章來源:新智元
內容字數:6294字
微軟大型行動模型LAM:AI從“”到“行動”的跨越
人工智能正經歷一場從語言模型(LLM)到大型行動模型(LAM)的性轉變。 傳統的LLM擅長理解和生成文本,但僅限于“紙上談兵”。而LAM則更進一步,它不僅能理解指令,還能在軟件環境中自主執行任務,真正做到“行動勝于言辭”。
1. LAM的核心能力: 與LLM不同,LAM能夠將用戶的自然語言指令轉化為具體的行動步驟,例如在Microsoft Office中進行文檔編輯、表格處理等。這并非簡單的文本生成,而是直接在軟件環境中進行操作,極大地提升了實際應用價值。 想象一下,你只需要用語音或文字告訴LAM“幫我買一件男士夾克”,它就能幫你完成從挑選款式到網購的全過程,這比LLM只能提供文本步驟的效率高出許多。
2. LAM的開發過程: LAM的訓練過程并非易事,它包含四個關鍵步驟:
- 任務分解與規劃: 將復雜任務分解成邏輯步驟,并制定詳細的執行計劃。
- 行動生成與執行: 將計劃轉化為具體的行動指令,例如GUI操作或API調用。
- 動態調整與優化: 根據執行過程中的反饋,調整行動策略,提高效率和成功率。
- 獎勵機制學習: 通過強化學習,根據任務完成情況給予獎勵或懲罰,進一步優化模型性能。
3. LAM的數據收集與構建: LAM的訓練依賴于高質量的數據。研究人員采用兩階段數據收集方法:
- 任務-計劃數據: 收集用戶請求(任務)及其對應的詳細步驟(計劃)。
- 任務-行動數據: 將計劃轉化為可在特定環境中執行的具體動作序列。
這些數據確保LAM既能進行高層次規劃,又能執行低層次操作。
4. LAM的性能評估: 研究人員將LAM集成到GUI智能體UFO中進行測試。結果顯示,LAM在Word環境中的任務成功率達到71%,顯著高于GPT-4o在相同條件下的63%。此外,LAM的執行速度也更快,每個任務平均耗時僅30秒。
5. LAM的未來展望: LAM的出現為辦公自動化、復雜任務處理等領域帶來了新的可能性,例如自動執行文檔編輯、表格處理等。 雖然LAM目前仍面臨一些挑戰,例如在復雜環境中的錯誤操作可能帶來風險,但它無疑代表了AI發展的重要方向,預示著未來AI助手將能夠更積極地協助人類完成實際任務,朝著通用人工智能(AGI)邁進。
總而言之,LAM的出現標志著AI從簡單的語言理解向實際任務執行的重大飛躍,它不僅能“”,更能“行動”,為我們的生活和工作帶來更多便利。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。