Next token prediction或許不是通往機器智能的唯一道路。
原標題:語言模型新范式:首個8B擴散大語言模型LLaDA發布,性能比肩LLaMA 3
文章來源:機器之心
內容字數:6145字
人大高瓴-螞蟻集團聯合研發新型大語言模型LLaDA:挑戰自回歸范式
本文介紹了中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊和螞蟻集團共同完成的一項研究成果:LLaDA(Large Language Diffusion with Masking)大語言模型。該模型挑戰了現有大語言模型普遍依賴自回歸機制的傳統觀念,提出了一種基于掩碼擴散模型的全新概率建模框架,在性能上與自回歸模型不相上下,甚至在某些方面表現更優。
1. LLaDA:突破自回歸局限的創新
當前主流大語言模型依賴于自回歸的“next token prediction”范式,即通過預測下一個詞來構建語言的聯合概率。LLaDA則另辟蹊徑,基于“最大似然估計”逼近真實語言分布,采用前向掩碼加噪和反向去噪的機制。這種雙向生成方式不僅突破了自回歸模型單向生成的局限,還通過優化似然下界,提供了一種不同于自回歸的、原理嚴謹的概率建模方案。
2. LLaDA的卓越性能
LLaDA 8B模型在多個方面展現了卓越的性能:
- 可擴展性:在MMLU、GSM8K等多個任務上,LLaDA與自回歸模型表現相當,甚至在模型規模增大后迅速縮小性能差距,展現了強大的可擴展能力。
- 上下文學習與指令遵循:在15個熱門基準測試中,預訓練了2.3萬億tokens的LLaDA 8B Base模型,其zero/few-shot學習能力超越了LLaMA2 7B Base,并與LLaMA3 8B Base媲美。經過監督微調后,其指令遵循能力顯著提升,能夠勝任多輪對話及跨語言生成任務。
- 平衡的正向與逆向推理能力:LLaDA有效克服了傳統自回歸模型在逆向推理任務中存在的“逆向詛咒”問題,在詩歌補全等任務中展現了強大的雙向推理能力。
- 實際應用效果:LLaDA在多輪對話、數學題解和跨語言文本生成等實際應用場景中表現出色,能夠準確把握上下文并生成流暢、合理的回答。
3. LLaDA的核心方法
LLaDA的核心在于其概率建模框架:
- 前向過程:對文本tokens逐步掩碼,直到序列完全掩碼。
- 反向過程:通過預測被掩碼的tokens,逐步恢復數據分布。
- 訓練目標:僅對被掩碼部分計算交叉熵損失,該目標函數為負對數似然的上界。
- 預訓練:使用Transformer作為掩碼預測器,在2.3萬億tokens的數據上進行預訓練。
- 監督微調(SFT):使用成對數據進行訓練,提升模型的指令遵循能力。
- 推理:從完全掩碼的響應開始,通過離散化的反向過程逐步恢復文本。
4. 總結
LLaDA通過前向掩碼加噪與反向去噪機制,成功實現了大語言模型的核心能力,挑戰了“大語言模型的智能必然依賴自回歸生成”的傳統觀念。其在可擴展性、上下文學習和指令遵循等方面的優異表現,為大語言模型的研究提供了新的方向和思路。團隊計劃近期開源推理代碼和LLaDA 8B Base權重,后續還將開源LLaDA 8B Instruct權重。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...