語言模型新范式：首個8B擴散大語言模型LLaDA發布，性能比肩LLaMA 3

Next token prediction或許不是通往機器智能的唯一道路。

原標題：語言模型新范式：首個8B擴散大語言模型LLaDA發布，性能比肩LLaMA 3
文章來源：機器之心
內容字數：6145字

人大高瓴-螞蟻集團聯合研發新型大語言模型LLaDA：挑戰自回歸范式

本文介紹了中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊和螞蟻集團共同完成的一項研究成果：LLaDA（Large Language Diffusion with Masking）大語言模型。該模型挑戰了現有大語言模型普遍依賴自回歸機制的傳統觀念，提出了一種基于掩碼擴散模型的全新概率建模框架，在性能上與自回歸模型不相上下，甚至在某些方面表現更優。

1. LLaDA：突破自回歸局限的創新

當前主流大語言模型依賴于自回歸的“next token prediction”范式，即通過預測下一個詞來構建語言的聯合概率。LLaDA則另辟蹊徑，基于“最大似然估計”逼近真實語言分布，采用前向掩碼加噪和反向去噪的機制。這種雙向生成方式不僅突破了自回歸模型單向生成的局限，還通過優化似然下界，提供了一種不同于自回歸的、原理嚴謹的概率建模方案。

2. LLaDA的卓越性能

LLaDA 8B模型在多個方面展現了卓越的性能：

可擴展性：在MMLU、GSM8K等多個任務上，LLaDA與自回歸模型表現相當，甚至在模型規模增大后迅速縮小性能差距，展現了強大的可擴展能力。
上下文學習與指令遵循：在15個熱門基準測試中，預訓練了2.3萬億tokens的LLaDA 8B Base模型，其zero/few-shot學習能力超越了LLaMA2 7B Base，并與LLaMA3 8B Base媲美。經過監督微調后，其指令遵循能力顯著提升，能夠勝任多輪對話及跨語言生成任務。
平衡的正向與逆向推理能力：LLaDA有效克服了傳統自回歸模型在逆向推理任務中存在的“逆向詛咒”問題，在詩歌補全等任務中展現了強大的雙向推理能力。
實際應用效果：LLaDA在多輪對話、數學題解和跨語言文本生成等實際應用場景中表現出色，能夠準確把握上下文并生成流暢、合理的回答。

3. LLaDA的核心方法

LLaDA的核心在于其概率建模框架：

前向過程：對文本tokens逐步掩碼，直到序列完全掩碼。
反向過程：通過預測被掩碼的tokens，逐步恢復數據分布。
訓練目標：僅對被掩碼部分計算交叉熵損失，該目標函數為負對數似然的上界。
預訓練：使用Transformer作為掩碼預測器，在2.3萬億tokens的數據上進行預訓練。
監督微調（SFT）：使用成對數據進行訓練，提升模型的指令遵循能力。
推理：從完全掩碼的響應開始，通過離散化的反向過程逐步恢復文本。

4. 總結

LLaDA通過前向掩碼加噪與反向去噪機制，成功實現了大語言模型的核心能力，挑戰了“大語言模型的智能必然依賴自回歸生成”的傳統觀念。其在可擴展性、上下文學習和指令遵循等方面的優異表現，為大語言模型的研究提供了新的方向和思路。團隊計劃近期開源推理代碼和LLaDA 8B Base權重，后續還將開源LLaDA 8B Instruct權重。