原標題:梅蘭妮·米切爾|大模型和世界模型
文章來源:人工智能學家
內容字數:24582字
大型語言模型與世界模型:深度解讀
本文探討了大型語言模型(LLM)是否真正理解其“世界”,以及它們是否擁有類似人類的“世界模型”。文章分為兩部分,首先回顧了以往人工智能系統的脆弱性,然后深入分析了LLM中世界模型存在的證據和反駁意見。
1. 以往人工智能的脆弱性
早期的機器學習系統往往依賴于“捷徑”或“表面啟發式”來解決問題,而非學習一般概念。例如,一個訓練用于識別皮膚病變的深度神經網絡,會錯誤地將帶有標尺的圖像識別為惡性,因為它在訓練數據中觀察到這種關聯,而非真正理解病變的特征。類似的現象也出現在自然語言處理和強化學習領域,系統往往依賴于訓練數據中的表面特征,而非深層次的理解。
2. 大模型中涌現世界模型的爭論
大型語言模型的出現引發了關于其能力的激烈爭論。OpenAI 聯合創始人Ilya Sutskever認為LLM已經學習了強大的世界模型,而其他人則認為其成功更多地依賴于對大量訓練數據的記憶和檢索。學術界對此觀點存在明顯分歧,一項調查顯示,對LLM是否能夠理解自然語言的觀點幾乎五五開。
3. 什么是世界模型?
“世界模型”在人工智能領域是一個流行但缺乏統一定義的概念。它通常被描述為對外部世界各個方面進行內部模擬的表征,能夠捕捉因果結構并進行預測。文章引用了不同類型的模型,例如靜態查找表、地圖、太陽系儀和模擬器,來解釋世界模型的不同層次。作者認為,人類的世界模型能夠讓我們快速理解復雜情境、預測未來并進行反事實推理。
4. 大模型中世界模型的證據:奧賽羅案例
文章以奧賽羅游戲為例,詳細分析了支持LLM擁有世界模型的證據。研究人員訓練了一個Transformer網絡(OthelloGPT)來預測游戲的合法走法。通過探測技術分析其內部激活,發現其內部激活編碼了棋盤狀態。起初,簡單的線性探測器效果不佳,但更強大的非線性探測器能夠以高精度預測棋盤狀態,這似乎表明OthelloGPT擁有隱式世界模型。然而,后續研究表明,OthelloGPT可能并非擁有一個連貫的世界模型,而是依賴于大量的局部啟發式規則的集合。
5. 世界模型與啟發式方法
后續研究表明,OthelloGPT 的成功可能并非源于一個抽象的世界模型,而是依賴于大量特定于游戲的局部啟發式規則。這些規則雖然能產生準確的預測,但缺乏抽象性和泛化能力,在面對新情況時容易失效。類似的啟發式方法集合可能也存在于其他LLM任務中。
6. 結論
文章總結認為,目前缺乏有力證據支持LLM擁有類似人類的抽象世界模型。雖然在特定領域(如奧賽羅)觀察到LLM似乎擁有某種對世界狀態的內部表示,但這些表示更可能是大量局部啟發式規則的集合,而非一個連貫、抽象的世界模型。未來研究需要更嚴格地定義“世界模型”,并關注其在不同任務中的泛化能力和魯棒性。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構