本文旨在分享LLaDA [2,3]的研究歷程以及我對生成模型的最新理解。
原標題:人大李崇軒教授:自回歸是否是通往語言智能的唯一路徑?
文章來源:智猩猩GenAI
內容字數:5082字
李崇軒教授:擴散語言模型LLaDA的研究歷程與對生成模型的最新理解
本文總結了李崇軒教授及其團隊關于擴散語言模型LLaDA的研究歷程和對生成模型的最新理解。該團隊從2023年9月開始,歷時一年半,專注于在擴散模型框架下重走語言模型路線,最終訓練出一個8B參數的擴散語言模型LLaDA,其性能與LLaMA 3 8B相當。
1. LLaDA研究歷程:挑戰與突破
李教授團隊的研究并非一帆風順。初期,他們選擇的技術路線遭遇了可擴展性問題,論文投稿和修改過程也充滿挑戰,資源籌措也困難重重。然而,團隊成員的堅持不懈,以及導師和資助方的支持,最終克服了這些困難。 他們的研究成果包括兩項基礎理論和算法工作:分別針對連續擴散模型和離散擴散模型提出了技術路線,并探索了掩碼擴散模型的可擴展性定律。最終,他們選擇了掩碼擴散模型路線,成功訓練出LLaDA。
2. 選擇擴散模型的理由:超越自回歸的局限
李教授選擇研究擴散模型的原因主要有三點:首先,他個人對概率建模方法感興趣,而視覺領域的擴散模型研究已趨于成熟;其次,語言的重要性促使他深入理解語言模型;最后,他認為自回歸并非通往語言智能的唯一路徑。 他認為,大語言模型的優秀特性主要源于生成式建模,而非自回歸的特性;而自回歸模型的局限性,例如高昂的計算成本和單向建模方式,也限制了模型的能力。 擴散模型則提供了一種的生成式方法,并避免了自回歸模型的一些缺點。
3. 大語言模型的理論基礎與擴散模型的優勢
李教授指出,大語言模型的理論基礎主要包括最大似然估計(或KL散度最小化)和自回歸模型的定義。他認為,可擴展性、指令跟隨和上下文學習并非自回歸模型獨有的優勢。雖然自回歸模型可以被解釋為無損數據壓縮器,但任何表達能力足夠強的概率模型都能實現類似的能力。 相比之下,擴散模型具備可擴展性,并通過移除時間輸入,直接利用Transformer架構,提供了一種更有效率的生成式方法。 LLaDA的成功也印證了擴散模型在語言生成任務中的潛力。
4. 未來展望:未解之謎與新挑戰
盡管取得了顯著成果,LLaDA仍然存在局限性,并且全球范圍內對自回歸模型的改進仍在持續進行。 這引發了李教授對一系列問題的思考:語言模型的預訓練是否已經結束?LLaDA能否改變當前的模型格局?后訓練與預訓練的關系是什么?強化學習對生成式建模的貢獻又是什么? 這些問題都值得進一步研究。
5. LLaDA 的主要貢獻
LLaDA模型成功在近20個常見的自然語言任務榜單上取得了與LLaMA 3 8B相當的結果,展現了極強的可擴展性和非自回歸的對話能力,為擴散模型在自然語言處理領域的應用提供了新的方向和可能性。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。