Absolute Zero

Absolute Zero – 清華大學等機構推出的語言模型推理訓練方法

Absolute Zero

絕對零度（Absolute Zero）是一種由清華大學LeapLab團隊與北京通用人工智能研究院NLCo實驗室及賓夕法尼亞州立大學共同研發的新型語言模型推理訓練方法。該方法依賴于模型自我生成任務并自主解決，推動自我進化學習，完全不需要人工標注的數據或預設任務。

絕對零度是什么

絕對零度是一種創新的語言模型推理訓練方法，由清華大學的LeapLab團隊與北京通用人工智能研究院NLCo實驗室及賓夕法尼亞州立大學共同推出。它的核心在于模型通過自主提出和解決任務，實現自我進化學習，完全不依賴人類的標注數據或設計任務。模型在提出任務時會獲得可學習性獎勵，而在解決問題時則獲得解答獎勵，通過與環境的互動不斷優化其推理能力。絕對零度旨在將推理模型的學習模式從依賴人類監督轉變為依賴環境反饋，使模型能夠通過真實環境的反應生成可驗證的任務，從而提升性能。

絕對零度的主要功能

自主任務生成：模型可自主生成具有學習價值的任務，這些任務既不簡單也不過于復雜，能夠為模型提供有效的學習信號。
自主任務解決：模型作為求解者，嘗試解決自己提出或生成的任務，并通過環境反饋驗證解答的正確性。
推理能力提升：通過不斷提出和解決任務，模型的推理能力（如歸納、演繹、溯因等）得以持續增強。
跨領域泛化：基于自我學習獲得的通用推理能力，模型能夠遷移到新的任務和領域中。
零數據訓練：完全不依賴人工標注數據或人類設計的任務，而是通過與環境的互動和反饋進行學習。

絕對零度的技術原理

雙重角色模型：模型同時扮演任務生成者（Proposer）和任務求解者（Solver），兩者共享參數并同步優化。
環境反饋機制：模型與環境（如代碼執行器）互動，環境驗證任務的可解性并提供反饋。生成的任務會根據難度和模型的解答成功率獲得可學習性獎勵，而解決的任務則基于解答的正確性獲得解答獎勵。
強化學習優化：利用強化學習算法（如TRR++）來優化模型參數，結合可學習性獎勵和解答獎勵，實現多任務下的自我進化學習。
推理模式支持：支持演繹（Deduction）、溯因（Abduction）和歸納（Induction）三種基本推理模式，每種模式對應不同的任務類型，提升特定的推理能力。
自博弈閉環：模型不斷提出新任務、解決任務，并根據環境反饋更新策略，形成一個閉環的自博弈學習過程，確保模型持續優化自身能力，無需外部數據支持。