8B模型搞定難倒GPT-4o的逆轉詛咒
原標題:嚯!大語言擴散模型來了,何必只預測下一個token | 人大高瓴&螞蟻
文章來源:量子位
內容字數:4474字
人大高瓴與螞蟻集團聯合發布LLaDA:挑戰自回歸大模型的局限
近日,人大高瓴人工智能研究院和螞蟻集團合作推出了一種名為LLaDA(Large Language Diffusion with Masking)的大型語言模型,該模型利用擴散模型替代了傳統的自回歸模型,旨在解決自回歸模型在處理雙向依賴關系和逆推理任務上的不足。
1. LLaDA的核心創新:擴散模型替代自回歸
傳統的自回歸模型,如GPT系列,通過逐個生成token的方式進行文本預測,這使得它們在處理需要雙向理解的任務(例如,根據下句推斷上句)上表現不佳。LLaDA則采用擴散模型,能夠同時考慮輸入序列中的所有token,從而更好地捕捉文本的雙向依賴關系。這挑戰了LLMs關鍵能力與自回歸模型之間的固有聯系。
2. LLaDA的性能表現
LLaDA-8B模型在多個方面展現出優異的性能:
- 上下文學習:在近乎所有15個標準的零樣本/少樣本學習任務中,LLaDA-8B超越了LLaMA2-7B,并與LLaMA3-8B表現相當。
- 指令遵循:經過監督微調后,LLaDA的指令遵循能力顯著增強。
- 反轉推理:LLaDA有效地克服了自回歸模型在反轉推理任務中的局限,在反轉詩歌完成任務中甚至超越了GPT-4o。
- 可擴展性:LLaDA能夠有效擴展到更大的計算資源上。
3. LLaDA的技術細節
LLaDA采用Transformer架構,但去除了因果掩碼,允許模型同時處理所有token。它使用隨機掩碼機制,而不是固定的掩碼比例,在訓練中只對被掩碼的token計算損失。在監督微調階段,LLaDA根據任務特點選擇性地掩碼token,進一步提升性能。推理階段,LLaDA通過反向采樣生成文本,并采用多種策略平衡生成效率和質量。
4. LLaDA的意義和未來展望
LLaDA的研究表明,自回歸并非實現LLMs智能的唯一路徑。其在效率和性能上的提升,為大模型的發展提供了新的方向。這項研究也引發了關于重構掩碼語言模型建模、RAG和嵌入式相似性搜索等方面的討論。雖然此前也出現過超越Transformer的架構,但LLaDA的成功應用,或許預示著擴散模型在大型語言模型領域的新篇章。
5. 研究團隊與論文信息
這項研究由人大高瓴人工智能學院與螞蟻集團共同完成,通訊作者為李崇軒。論文已發表在arXiv上,地址為:https://arxiv.org/abs/2502.09992 項目主頁:https://ml-gsai.github.io/LLaDA-demo/
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破