原標題:AI做數學學會「動腦子」! UCL等發現LLM「程序性知識」,推理絕不是背答案
文章來源:新智元
內容字數:15901字
LLM推理能力研究綜述
在最新的研究中,來自UCL和Cohere等機構的研究人員探討了大型語言模型(LLM)在推理任務中的表現,發現它們并非簡單地檢索答案,而是通過一種稱為“程序性知識”的方式進行推理。這項研究揭示了LLM在處理推理任務時所依賴的知識和策略,為理解其推理能力提供了新的視角。
1. 程序性知識的發現
研究人員分析了LLM在執行推理任務時使用的預訓練數據,發現模型依賴于包含程序性知識的文檔。這些文檔提供了求解過程的示例,模型通過觀察這些示例來生成自己的推理過程。研究表明,LLM在面對不同推理任務時,所依賴的信息源并不相同,但在處理相似類型的問題時,其使用的文檔卻表現出一定的相似性。
2. 推理與事實性問題的區別
研究還發現,LLM在回答事實性問題時,答案通常出現在最具影響力的文檔中,而在推理問題中,答案的出現頻率則顯著降低。這表明,LLM在推理時的表現與其在事實性問題上的表現存在明顯差異,推理過程更依賴于從更廣泛的文檔集合中進行泛化,而對單個文檔的依賴程度較低。
3. 數據污染與模型性能
研究指出,LLM的推理能力受到訓練數據中類似問題頻率的嚴重影響。這引發了對“數據污染”的關注,即基準測試數據可能與預訓練數據重合,導致模型的泛化能力受到限制。因此,如何有效選擇和設計預訓練數據成為提升LLM推理能力的關鍵。
4. 影響文檔的分析
研究團隊利用影響函數分析了哪些文檔對模型輸出產生了重要影響,結果顯示,文檔中的程序性知識對推理過程的軌跡具有顯著預測能力。尤其是在處理數學推理問題時,包含代碼或公式的文檔更能有效支持模型的推理過程。
5. 結論與未來展望
總的來說,這項研究提供了LLM推理能力的新見解,表明其并非簡單的模式匹配器,而是通過程序性知識進行復雜推理的能力。未來的研究可以進一步探索如何利用這種程序性知識,優化LLM的預訓練策略,以提高其在多樣化推理任務中的表現。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。