嚯！大語言擴散模型來了，何必只預測下一個token | 人大高瓴&螞蟻

8B模型搞定難倒GPT-4o的逆轉詛咒

原標題：嚯！大語言擴散模型來了，何必只預測下一個token | 人大高瓴&螞蟻
文章來源：量子位
內容字數：4474字

人大高瓴與螞蟻集團聯合發布LLaDA：挑戰自回歸大模型的局限

近日，人大高瓴人工智能研究院和螞蟻集團合作推出了一種名為LLaDA（Large Language Diffusion with Masking）的大型語言模型，該模型利用擴散模型替代了傳統的自回歸模型，旨在解決自回歸模型在處理雙向依賴關系和逆推理任務上的不足。

1. LLaDA的核心創新：擴散模型替代自回歸

傳統的自回歸模型，如GPT系列，通過逐個生成token的方式進行文本預測，這使得它們在處理需要雙向理解的任務（例如，根據下句推斷上句）上表現不佳。LLaDA則采用擴散模型，能夠同時考慮輸入序列中的所有token，從而更好地捕捉文本的雙向依賴關系。這挑戰了LLMs關鍵能力與自回歸模型之間的固有聯系。

2. LLaDA的性能表現

LLaDA-8B模型在多個方面展現出優異的性能：

上下文學習：在近乎所有15個標準的零樣本/少樣本學習任務中，LLaDA-8B超越了LLaMA2-7B，并與LLaMA3-8B表現相當。
指令遵循：經過監督微調后，LLaDA的指令遵循能力顯著增強。
反轉推理：LLaDA有效地克服了自回歸模型在反轉推理任務中的局限，在反轉詩歌完成任務中甚至超越了GPT-4o。
可擴展性：LLaDA能夠有效擴展到更大的計算資源上。

3. LLaDA的技術細節

LLaDA采用Transformer架構，但去除了因果掩碼，允許模型同時處理所有token。它使用隨機掩碼機制，而不是固定的掩碼比例，在訓練中只對被掩碼的token計算損失。在監督微調階段，LLaDA根據任務特點選擇性地掩碼token，進一步提升性能。推理階段，LLaDA通過反向采樣生成文本，并采用多種策略平衡生成效率和質量。

4. LLaDA的意義和未來展望

LLaDA的研究表明，自回歸并非實現LLMs智能的唯一路徑。其在效率和性能上的提升，為大模型的發展提供了新的方向。這項研究也引發了關于重構掩碼語言模型建模、RAG和嵌入式相似性搜索等方面的討論。雖然此前也出現過超越Transformer的架構，但LLaDA的成功應用，或許預示著擴散模型在大型語言模型領域的新篇章。

5. 研究團隊與論文信息

這項研究由人大高瓴人工智能學院與螞蟻集團共同完成，通訊作者為李崇軒。論文已發表在arXiv上，地址為：https://arxiv.org/abs/2502.09992 項目主頁：https://ml-gsai.github.io/LLaDA-demo/

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 大模型預測下一個token # 大語言模型擴散 # 螞蟻集團AI布局 # 霍大模型 # 高瓴資本投資AI

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

嚯！大語言擴散模型來了，何必只預測下一個token | 人大高瓴&螞蟻

8B模型搞定難倒GPT-4o的逆轉詛咒

人大高瓴與螞蟻集團聯合發布LLaDA：挑戰自回歸大模型的局限

1. LLaDA的核心創新：擴散模型替代自回歸

2. LLaDA的性能表現

3. LLaDA的技術細節

4. LLaDA的意義和未來展望

5. 研究團隊與論文信息

聯系作者

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

DeepSeek，根之技術

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點