本期通訊 23188 字,可免費試讀至 9%。
原標題:Ilya 「Scaling What」的答案會是程序性知識嗎?
文章來源:機器之心
內容字數:4658字
程序性知識與LLM推理能力的探討
在近年來大規模語言模型(LLM)的發展中,關于其是否具備真實推理能力的辯論從未停止。Ilya Sutskever在最近的訪談中提到“Scaling the right thing matters more now than ever”,這引發了對推理層Scaling Law的深入探討。
1. 程序性知識的定義
程序性知識(procedural knowledge)是指執行特定任務或解決問題所需的步驟和方法。在LLM的背景下,它指的是模型從預訓練數據中學習到的一系列邏輯步驟或計算過程,用于執行推理任務。
2. LLM的推理能力研究
多項研究表明,經過預訓練的LLM在零樣本條件下展現出處理陌生任務的能力,尤其在抽象模式歸納方面表現驚人。然而,也有研究質疑其推理能力,認為LLM的“推理”過程實際上可能只是模式匹配。
3. 數據對推理能力的影響
研究發現,LLM在處理事實問題時依賴于特定文檔進行答案檢索,而在推理問題上則采取不同的策略。模型利用從預訓練數據中學到的程序性知識,生成答案時并非單純檢索,而是綜合多種文檔的信息進行推理。
4. 代碼預訓練的潛力
UCL和Cohere的研究指出,代碼預訓練在多項任務中均發揮了重要作用,這引發了一個新的問題:是否可能存在一種預訓練數據(如代碼)能夠讓LLM學習到多種任務的解決方案?
5. 結論與未來研究方向
盡管LLM在推理能力方面的爭論仍在繼續,但程序性知識的作用愈發明顯。未來的研究可進一步探索如何利用不同類型的預訓練數據來提升LLM的推理能力,特別是在處理復雜任務時。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...