Absolute Zero – 清華大學(xué)等機構(gòu)推出的語言模型推理訓(xùn)練方法
絕對零度(Absolute Zero)是一種由清華大學(xué)LeapLab團(tuán)隊與北京通用人工智能研究院NLCo實驗室及賓夕法尼亞州立大學(xué)共同研發(fā)的新型語言模型推理訓(xùn)練方法。該方法依賴于模型自我生成任務(wù)并自主解決,推動自我進(jìn)化學(xué)習(xí),完全不需要人工標(biāo)注的數(shù)據(jù)或預(yù)設(shè)任務(wù)。
絕對零度是什么
絕對零度是一種創(chuàng)新的語言模型推理訓(xùn)練方法,由清華大學(xué)的LeapLab團(tuán)隊與北京通用人工智能研究院NLCo實驗室及賓夕法尼亞州立大學(xué)共同推出。它的核心在于模型通過自主提出和解決任務(wù),實現(xiàn)自我進(jìn)化學(xué)習(xí),完全不依賴人類的標(biāo)注數(shù)據(jù)或設(shè)計任務(wù)。模型在提出任務(wù)時會獲得可學(xué)習(xí)性獎勵,而在解決問題時則獲得解答獎勵,通過與環(huán)境的互動不斷優(yōu)化其推理能力。絕對零度旨在將推理模型的學(xué)習(xí)模式從依賴人類監(jiān)督轉(zhuǎn)變?yōu)橐蕾嚟h(huán)境反饋,使模型能夠通過真實環(huán)境的反應(yīng)生成可驗證的任務(wù),從而提升性能。
絕對零度的主要功能
- 自主任務(wù)生成:模型可自主生成具有學(xué)習(xí)價值的任務(wù),這些任務(wù)既不簡單也不過于復(fù)雜,能夠為模型提供有效的學(xué)習(xí)信號。
- 自主任務(wù)解決:模型作為求解者,嘗試解決自己提出或生成的任務(wù),并通過環(huán)境反饋驗證解答的正確性。
- 推理能力提升:通過不斷提出和解決任務(wù),模型的推理能力(如歸納、演繹、溯因等)得以持續(xù)增強。
- 跨領(lǐng)域泛化:基于自我學(xué)習(xí)獲得的通用推理能力,模型能夠遷移到新的任務(wù)和領(lǐng)域中。
- 零數(shù)據(jù)訓(xùn)練:完全不依賴人工標(biāo)注數(shù)據(jù)或人類設(shè)計的任務(wù),而是通過與環(huán)境的互動和反饋進(jìn)行學(xué)習(xí)。
絕對零度的技術(shù)原理
- 雙重角色模型:模型同時扮演任務(wù)生成者(Proposer)和任務(wù)求解者(Solver),兩者共享參數(shù)并同步優(yōu)化。
- 環(huán)境反饋機制:模型與環(huán)境(如代碼執(zhí)行器)互動,環(huán)境驗證任務(wù)的可解性并提供反饋。生成的任務(wù)會根據(jù)難度和模型的解答成功率獲得可學(xué)習(xí)性獎勵,而解決的任務(wù)則基于解答的正確性獲得解答獎勵。
- 強化學(xué)習(xí)優(yōu)化:利用強化學(xué)習(xí)算法(如TRR++)來優(yōu)化模型參數(shù),結(jié)合可學(xué)習(xí)性獎勵和解答獎勵,實現(xiàn)多任務(wù)下的自我進(jìn)化學(xué)習(xí)。
- 推理模式支持:支持演繹(Deduction)、溯因(Abduction)和歸納(Induction)三種基本推理模式,每種模式對應(yīng)不同的任務(wù)類型,提升特定的推理能力。
- 自博弈閉環(huán):模型不斷提出新任務(wù)、解決任務(wù),并根據(jù)環(huán)境反饋更新策略,形成一個閉環(huán)的自博弈學(xué)習(xí)過程,確保模型持續(xù)優(yōu)化自身能力,無需外部數(shù)據(jù)支持。
絕對零度的項目地址
- 項目官網(wǎng):https://andrewzh112.github.io/absolute-zero-reasoner/
- GitHub倉庫:https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
- HuggingFace模型庫:https://huggingface.co/collections/andrewzh/absolute-zero-reasoner
- arXiv技術(shù)論文:https://www.arxiv.org/pdf/2505.03335
絕對零度的應(yīng)用場景
- 通用人工智能(AGI):推動模型自主學(xué)習(xí)和進(jìn)化,逐步接近人類智能的水平。
- 代碼生成:自動生成高效代碼,解決復(fù)雜的編程問題,提高開發(fā)效率。
- 數(shù)學(xué)推理:提升模型在數(shù)學(xué)問題上的泛化能力,助力數(shù)學(xué)教育和研究。
- 自然語言處理(NLP):通過自我學(xué)習(xí)提升語言理解和生成能力,優(yōu)化文本生成及問答系統(tǒng)。
- 安全與倫理:研究AI自主進(jìn)化過程中的行為模式,確保系統(tǒng)的安全性和倫理性。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...