Deepmind 重磅開源：消除幻覺，讓 LLMs 學會規則庫和多步推理

原標題：Deepmind 重磅開源：消除幻覺，讓 LLMs 學會規則庫和多步推理
文章來源：夕小瑤科技說
內容字數：6603字

Google DeepMind開源LLMs推理規則庫：攻克大模型幻覺難題

2024年12月，大模型發展如火如荼，但模型推理中的“幻覺”問題依然是AI測評的焦點。Google DeepMind團隊在圣誕節之際開源了其關于LLMs訓練規則推理庫的代碼，為解決這一難題提供了新的思路。該研究論文題目為《大型語言模型可以學習規則》(Large Language Models can Learn Rules)，其核心框架是“從假設到理論”（HtT，Hypotheses-to-Theories）。

1. 推理、事實與規則：基礎概念

文章首先闡述了推理、事實和規則之間的關系。推理是從事實推導規則的過程，事實是已知信息，規則是潛在的邏輯關系。推理分為演繹推理（事實+規則->事實）和歸納推理（事實+事實+…+事實->規則）。LLMs的訓練過程可以視為歸納推理，而應用規則進行計算則為演繹推理。LLMs推理的難點在于如何有效匹配事實和對應的規則。

2. 從假設到理論(HtT)框架

為了解決LLMs推理難題，DeepMind提出了HtT框架。該框架由歸納階段和演繹階段組成，兩者都通過少量樣本提示實現。

歸納階段：從訓練示例中學習規則，并根據覆蓋度和置信度過濾規則，形成規則庫。DeepMind提出了一種“從演繹中歸納”的方法，使用同一個演繹推理提示進行規則生成和驗證，提高了推理準確率。
演繹階段：利用歸納階段生成的規則庫來解決測試問題。為了克服LLMs在檢索大量規則時的困難，DeepMind采用了一種層次化的規則庫組織方式，并使用XML標簽進行明確引用。

3. 推理測試與實驗結果

DeepMind分別在關系推理、數值推理和概念學習三個任務上對HtT框架進行了評估，并進行了消融實驗。

關系推理：在CLUTRR數據集上，HtT顯著提高了GPT-3.5和GPT-4的準確率。
數值推理：在Arithmetic數據集上，HtT同樣提升了模型在非十進制加法等問題上的準確率。
概念學習：在List Functions數據集上，HtT提高了模型學習和應用復雜規則的能力。

消融實驗表明，HtT的性能提升主要源于減少了錯誤規則的生成，并且學習到的規則并非隨機的。

4. 全文總結

HtT框架通過顯式學習和應用規則，顯著提高了LLMs在各種推理任務上的性能，有效降低了“幻覺”問題的發生。雖然HtT目前仍受限于模型基礎能力和上下文長度，但其為解決LLMs推理問題提供了新的方向，具有很大的發展潛力。

聯系作者

文章來源：夕小瑤科技說
作者微信：
作者簡介：低負擔解碼AI世界，硬核也可愛！聚集35萬AI發燒友、開發者和從業者，廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文

# AIGC動態 # LLM規則庫推理 # 可解釋AI推理 # 基于規則的LLM # 多步推理驗證 # 大型語言模型幻覺消除

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

Deepmind 重磅開源：消除幻覺，讓 LLMs 學會規則庫和多步推理

Google DeepMind開源LLMs推理規則庫：攻克大模型幻覺難題

1. 推理、事實與規則：基礎概念

2. 從假設到理論(HtT)框架

3. 推理測試與實驗結果

4. 全文總結

聯系作者

?雷軍挖了個95后AI天才少女，開出千萬年薪！

曝 iPhone17 系列標準版將配備高刷/小米 SU7 交付量超 13 萬臺/2025 年春晚主創團隊官宣

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點