Absolute Zero – 清華大學等機構推出的語言模型推理訓練方法
絕對零度(Absolute Zero)是一種由清華大學LeapLab團隊與北京通用人工智能研究院NLCo實驗室及賓夕法尼亞州立大學共同研發的新型語言模型推理訓練方法。該方法依賴于模型自我生成任務并自主解決,推動自我進化學習,完全不需要人工標注的數據或預設任務。
絕對零度是什么
絕對零度是一種創新的語言模型推理訓練方法,由清華大學的LeapLab團隊與北京通用人工智能研究院NLCo實驗室及賓夕法尼亞州立大學共同推出。它的核心在于模型通過自主提出和解決任務,實現自我進化學習,完全不依賴人類的標注數據或設計任務。模型在提出任務時會獲得可學習性獎勵,而在解決問題時則獲得解答獎勵,通過與環境的互動不斷優化其推理能力。絕對零度旨在將推理模型的學習模式從依賴人類監督轉變為依賴環境反饋,使模型能夠通過真實環境的反應生成可驗證的任務,從而提升性能。
絕對零度的主要功能
- 自主任務生成:模型可自主生成具有學習價值的任務,這些任務既不簡單也不過于復雜,能夠為模型提供有效的學習信號。
- 自主任務解決:模型作為求解者,嘗試解決自己提出或生成的任務,并通過環境反饋驗證解答的正確性。
- 推理能力提升:通過不斷提出和解決任務,模型的推理能力(如歸納、演繹、溯因等)得以持續增強。
- 跨領域泛化:基于自我學習獲得的通用推理能力,模型能夠遷移到新的任務和領域中。
- 零數據訓練:完全不依賴人工標注數據或人類設計的任務,而是通過與環境的互動和反饋進行學習。
絕對零度的技術原理
- 雙重角色模型:模型同時扮演任務生成者(Proposer)和任務求解者(Solver),兩者共享參數并同步優化。
- 環境反饋機制:模型與環境(如代碼執行器)互動,環境驗證任務的可解性并提供反饋。生成的任務會根據難度和模型的解答成功率獲得可學習性獎勵,而解決的任務則基于解答的正確性獲得解答獎勵。
- 強化學習優化:利用強化學習算法(如TRR++)來優化模型參數,結合可學習性獎勵和解答獎勵,實現多任務下的自我進化學習。
- 推理模式支持:支持演繹(Deduction)、溯因(Abduction)和歸納(Induction)三種基本推理模式,每種模式對應不同的任務類型,提升特定的推理能力。
- 自博弈閉環:模型不斷提出新任務、解決任務,并根據環境反饋更新策略,形成一個閉環的自博弈學習過程,確保模型持續優化自身能力,無需外部數據支持。
絕對零度的項目地址
- 項目官網:https://andrewzh112.github.io/absolute-zero-reasoner/
- GitHub倉庫:https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
- HuggingFace模型庫:https://huggingface.co/collections/andrewzh/absolute-zero-reasoner
- arXiv技術論文:https://www.arxiv.org/pdf/2505.03335
絕對零度的應用場景
- 通用人工智能(AGI):推動模型自主學習和進化,逐步接近人類智能的水平。
- 代碼生成:自動生成高效代碼,解決復雜的編程問題,提高開發效率。
- 數學推理:提升模型在數學問題上的泛化能力,助力數學教育和研究。
- 自然語言處理(NLP):通過自我學習提升語言理解和生成能力,優化文本生成及問答系統。
- 安全與倫理:研究AI自主進化過程中的行為模式,確保系統的安全性和倫理性。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...