人大李崇軒教授:自回歸是否是通往語言智能的唯一路徑?
本文旨在分享LLaDA [2,3]的研究歷程以及我對(duì)生成模型的最新理解。

原標(biāo)題:人大李崇軒教授:自回歸是否是通往語言智能的唯一路徑?
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):5082字
李崇軒教授:擴(kuò)散語言模型LLaDA的研究歷程與對(duì)生成模型的最新理解
本文總結(jié)了李崇軒教授及其團(tuán)隊(duì)關(guān)于擴(kuò)散語言模型LLaDA的研究歷程和對(duì)生成模型的最新理解。該團(tuán)隊(duì)從2023年9月開始,歷時(shí)一年半,專注于在擴(kuò)散模型框架下重走語言模型路線,最終訓(xùn)練出一個(gè)8B參數(shù)的擴(kuò)散語言模型LLaDA,其性能與LLaMA 3 8B相當(dāng)。
1. LLaDA研究歷程:挑戰(zhàn)與突破
李教授團(tuán)隊(duì)的研究并非一帆風(fēng)順。初期,他們選擇的技術(shù)路線遭遇了可擴(kuò)展性問題,論文投稿和修改過程也充滿挑戰(zhàn),資源籌措也困難重重。然而,團(tuán)隊(duì)成員的堅(jiān)持不懈,以及導(dǎo)師和資助方的支持,最終克服了這些困難。 他們的研究成果包括兩項(xiàng)基礎(chǔ)理論和算法工作:分別針對(duì)連續(xù)擴(kuò)散模型和離散擴(kuò)散模型提出了技術(shù)路線,并探索了掩碼擴(kuò)散模型的可擴(kuò)展性定律。最終,他們選擇了掩碼擴(kuò)散模型路線,成功訓(xùn)練出LLaDA。
2. 選擇擴(kuò)散模型的理由:超越自回歸的局限
李教授選擇研究擴(kuò)散模型的原因主要有三點(diǎn):首先,他個(gè)人對(duì)概率建模方法感興趣,而視覺領(lǐng)域的擴(kuò)散模型研究已趨于成熟;其次,語言的重要性促使他深入理解語言模型;最后,他認(rèn)為自回歸并非通往語言智能的唯一路徑。 他認(rèn)為,大語言模型的優(yōu)秀特性主要源于生成式建模,而非自回歸的特性;而自回歸模型的局限性,例如高昂的計(jì)算成本和單向建模方式,也限制了模型的能力。 擴(kuò)散模型則提供了一種的生成式方法,并避免了自回歸模型的一些缺點(diǎn)。
3. 大語言模型的理論基礎(chǔ)與擴(kuò)散模型的優(yōu)勢(shì)
李教授指出,大語言模型的理論基礎(chǔ)主要包括最大似然估計(jì)(或KL散度最小化)和自回歸模型的定義。他認(rèn)為,可擴(kuò)展性、指令跟隨和上下文學(xué)習(xí)并非自回歸模型獨(dú)有的優(yōu)勢(shì)。雖然自回歸模型可以被解釋為無損數(shù)據(jù)壓縮器,但任何表達(dá)能力足夠強(qiáng)的概率模型都能實(shí)現(xiàn)類似的能力。 相比之下,擴(kuò)散模型具備可擴(kuò)展性,并通過移除時(shí)間輸入,直接利用Transformer架構(gòu),提供了一種更有效率的生成式方法。 LLaDA的成功也印證了擴(kuò)散模型在語言生成任務(wù)中的潛力。
4. 未來展望:未解之謎與新挑戰(zhàn)
盡管取得了顯著成果,LLaDA仍然存在局限性,并且全球范圍內(nèi)對(duì)自回歸模型的改進(jìn)仍在持續(xù)進(jìn)行。 這引發(fā)了李教授對(duì)一系列問題的思考:語言模型的預(yù)訓(xùn)練是否已經(jīng)結(jié)束?LLaDA能否改變當(dāng)前的模型格局?后訓(xùn)練與預(yù)訓(xùn)練的關(guān)系是什么?強(qiáng)化學(xué)習(xí)對(duì)生成式建模的貢獻(xiàn)又是什么? 這些問題都值得進(jìn)一步研究。
5. LLaDA 的主要貢獻(xiàn)
LLaDA模型成功在近20個(gè)常見的自然語言任務(wù)榜單上取得了與LLaMA 3 8B相當(dāng)?shù)慕Y(jié)果,展現(xiàn)了極強(qiáng)的可擴(kuò)展性和非自回歸的對(duì)話能力,為擴(kuò)散模型在自然語言處理領(lǐng)域的應(yīng)用提供了新的方向和可能性。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

粵公網(wǎng)安備 44011502001135號(hào)