原標題:小模型指導大模型!田淵棟等爆錘蒸餾:新方法更高效、更透明、更可控
文章來源:新智元
內容字數:5119字
Meta新研究:超越“下一個token預測”,基于連續概念的LLM預訓練框架CoCoMix
Meta團隊近期發表了一篇論文,提出了一種名為CoCoMix的下一代大語言模型(LLM)預訓練框架,該框架超越了傳統的“下一個token預測”(NTP)范式,利用連續概念進行語言建模,從而提高了模型效率和可解釋性。
1. “下一個token預測”的局限性
傳統的NTP方法依賴于tokenization,這導致LLM在處理非文本信息(例如表情包)或細微的語言差異(例如單詞拼寫)時存在不足。Meta的研究人員認為,需要一種超越token級別的方法來更有效地捕捉語言的語義信息。
2. CoCoMix:基于連續概念的語言建模
CoCoMix的核心思想是利用稀疏自編碼器(SAE)提取高層次的語義概念。該框架包含三個步驟:
從預訓練的SAE中提取并選擇顯著的概念。
LLM從其隱藏狀態預測這些概念。
將預測出的多個概念壓縮成一個單一的“連續概念”,并將其“混合”到LLM隱藏狀態中。
通過這種方式,CoCoMix能夠在語句級別上進行語言建模,擺脫了對人類語言類型的依賴。
3. 實驗結果與優勢
研究人員在多個語言建模基準和不同規模的預訓練模型上進行了廣泛的評估,結果表明CoCoMix具有顯著的優勢:
更高的樣本效率:與NTP相比,CoCoMix在相同性能下可以減少20%的訓練數據量。
優于知識蒸餾:CoCoMix在弱監督到強監督的場景中都表現優于傳統的知識蒸餾方法,甚至可以從小模型中提取概念來指導大模型的訓練。
可解釋性和可操縱性:通過檢查概念預測,可以分析模型關注哪些概念,并通過調整概念來控制模型的輸出生成。
實驗結果圖(圖2-6)進一步驗證了CoCoMix在不同模型規模、不同任務(包括困惑度、準確率等)上的優越性能。
4. 結論
CoCoMix是一種高效且可解釋的LLM預訓練框架,它超越了傳統的NTP方法,利用連續概念進行語言建模,在多個方面都展現出優異的性能。該研究為未來的LLM預訓練提供了新的方向,并為提高模型的可控性和可解釋性提供了新的思路。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。