<input id="a0w4m"></input>

LLaDA

AI工具3個月前更新 AI工具集

600 0 0

LLaDA – 人大高瓴AI聯合螞蟻推出的擴散大語言模型

LLaDA（Large Language Diffusion with mAsking）是由中國人民大學高瓴AI學院的李崇軒、文繼榮教授團隊與螞蟻集團合作開發的一款創新型大型語言模型。與傳統的自回歸模型（ARM）不同，LLaDA基于擴散模型框架，通過正向掩蔽與反向恢復過程來建模文本分布，利用Transformer作為掩蔽預測器，優化似然下界以實現文本生成。在預訓練階段，LLaDA使用了2.3萬億標記的數據，并通過監督微調（SFT）提升其指令遵循能力。其8B參數版本在多個基準測試中展現出與LLaMA3等頂尖模型相媲美的性能，表明擴散模型在語言生成領域的巨大潛力。

LLaDA是什么

LLaDA（Large Language Diffusion with mAsking）是一種新型大型語言模型，由中國人民大學高瓴AI學院的李崇軒、文繼榮教授團隊和螞蟻集團聯合推出。該模型基于擴散模型框架，區別于傳統的自回歸模型（ARM），通過正向掩蔽和反向恢復過程來建模文本的整體分布。LLaDA采用Transformer架構作為掩蔽預測器，利用優化似然下界的方法進行生成任務的實現。其預訓練階段使用了海量的數據，以提升模型在指令遵循方面的能力。LLaDA在可擴展性、上下文學習能力和指令執行能力等方面表現優異，成功解決了傳統ARM的“反轉詛咒”問題。

LLaDA

LLaDA的主要功能

高效文本生成：可以生成高質量、連貫的文本，適用于寫作、對話和內容創作等多種場景。
強大的上下文學習能力：能夠快速適應新任務，理解上下文信息。
指令執行能力：更好地理解并執行人類的指令，適合于多輪對話、問答和任務執行。
雙向推理能力：在正向和反向推理任務中表現出色，能夠有效解決傳統自回歸模型的“反轉詛咒”，如在詩歌補全任務中。
多領域適應性：在語言理解、數學、編程和中文理解等多個領域均表現優異，具有廣泛的應用潛力。

LLaDA的技術原理

擴散模型框架：通過正向掩蔽過程逐步掩蔽文本標記，再通過反向恢復過程逐步恢復標記，從而建模文本分布。這一方法使得模型能夠以非自回歸的形式生成文本，克服了傳統自回歸模型的順序生成限制。
掩蔽預測器：使用標準Transformer架構作為掩蔽預測器，輸入部分掩蔽的文本序列，預測所有掩蔽的標記，從而捕捉雙向依賴，而不僅僅是單向生成。
優化似然下界：通過優化似然下界進行模型訓練，這一原理確保了在大規模數據和模型參數下的可擴展性和生成能力。
預訓練與監督微調：結合預訓練和監督微調（SFT），在預訓練階段利用大規模文本數據進行無監督學習，隨后通過標注數據來提升模型的指令遵循能力。
靈活采樣策略：在生成過程中，支持多種采樣策略（如隨機掩蔽、低置信度掩蔽、半自回歸掩蔽等），在生成質量和效率之間取得平衡。