PRefLexOR

PRefLexOR – MIT 團隊推出的新型自學習AI框架

PRefLexOR是什么

PRefLexOR（Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning）是由麻省理工學院團隊研發的一種先進自學習人工智能框架。該框架融合了偏好優化和強化學習（RL）的理念，通過迭代推理的方式提升自我學習的能力。PRefLexOR的核心在于其遞歸推理算法，模型在訓練和推理的過程中會進行多輪推理、反思和優化，從而最終生成更為準確的結果。該框架建立在優勢比偏好優化（ORPO）的基礎上，模型通過優化偏好與非偏好響應之間的對數幾率來協調推理路徑，并結合直接偏好優化（DPO），通過拒絕采樣進一步提升推理的質量。

PRefLexOR

PRefLexOR的主要功能

動態知識圖譜構建：該框架無需依賴于預先生成的數據集，而是通過實時生成任務和推理步驟來構建知識圖譜，使模型能夠持續適應新任務，并在推理過程中動態擴展其知識庫。
跨領域推理能力：PRefLexOR具備整合不同領域知識的能力。例如，在材料科學領域，模型通過遞歸推理和知識圖譜能夠生成新的設計原則。
自主學習與進化：PRefLexOR運用遞歸優化和實時反饋機制，能夠在訓練過程中實現自我教學，持續改進推理策略，展現出類似人類的深度思考與自主發展的能力。

PRefLexOR的技術原理

遞歸推理與反思：PRefLexOR通過引入“思考令牌”和“反思令牌”，明確區分推理過程中的各個階段。模型在推理時會首先生成初步響應，然后通過反思逐步改進，最終得出更精確的答案。
偏好優化：PRefLexOR基于優勢比偏好優化（ORPO）和直接偏好優化（DPO）。模型通過優化偏好響應與非偏好響應之間的對數優勢比來使推理路徑與人類的決策過程保持一致。同時，DPO通過拒絕采樣進一步調整推理質量，確保偏好對齊的細微差異。
多階段訓練：PRefLexOR的訓練過程分為多個階段，首先通過ORPO對齊推理路徑，然后利用DPO進一步優化推理質量。這種混合方法類似于強化學習中的策略細化，模型通過實時反饋和遞歸處理不斷改進。

PRefLexOR的項目地址

Github倉庫：https://github.com/lamm-mit/PRefLexOR
arXiv技術論文：https://arxiv.org/pdf/2410.12375

PRefLexOR的應用場景

材料科學與設計：在材料科學領域，PRefLexOR展現出強大的推理能力。通過動態生成問題和檢索增強技術（RAG），該模型能夠從隨機文本中提取信息，構建實時更新的知識圖譜。
跨領域推理：PRefLexOR能夠將不同領域的知識進行整合，進行跨領域的推理與決策。在生物材料科學中，模型可通過遞歸推理與反思機制，將生物學原理與材料科學結合，提出新的解決方案。
開放域問題解決：作為基于強化學習的自學習系統，PRefLexOR能有效應對開放域問題，通過迭代優化與反饋驅動的學習，不斷提升其推理路徑。
生成材料信息學：PRefLexOR可以用于生成材料信息學的工作流程，將信息轉變為知識與可執行的結果。通過多步推理和自我評估，該模型能夠實現更復雜的預測，支持材料預測的持續改進。