突破長(zhǎng)上下文建模瓶頸:清華團(tuán)隊(duì)揭示狀態(tài)崩潰的深層原因與解決方案

原標(biāo)題:不是RNN的鍋!清華團(tuán)隊(duì)深入分析長(zhǎng)上下文建模中的狀態(tài)崩潰,Mamba作者點(diǎn)贊
文章來源:新智元
內(nèi)容字?jǐn)?shù):6006字
RNN模型在長(zhǎng)上下文中的表現(xiàn)分析
近日,清華大學(xué)的研究團(tuán)隊(duì)針對(duì)RNN模型在處理長(zhǎng)上下文時(shí)的表現(xiàn)進(jìn)行了深入研究,結(jié)果表明問題并不在于RNN本身,而在于訓(xùn)練過程中的一些限制。
1. RNN的優(yōu)勢(shì)與挑戰(zhàn)
RNN模型在應(yīng)對(duì)長(zhǎng)序列方面具有顯著優(yōu)勢(shì),例如Mamba模型,它的內(nèi)部狀態(tài)大小始終保持不變,計(jì)算復(fù)雜度隨序列長(zhǎng)度線性增長(zhǎng)。然而,當(dāng)前的RNN模型在長(zhǎng)上下文中的實(shí)際表現(xiàn)卻不盡如人意,主要面臨兩個(gè)問題:一是無(wú)法處理超過訓(xùn)練長(zhǎng)度的輸入,二是內(nèi)存容量有限,導(dǎo)致新信息無(wú)法有效存儲(chǔ)。
2. 研究發(fā)現(xiàn)與模型改進(jìn)
研究表明,Mamba-2模型在256K上下文長(zhǎng)度上達(dá)到了近乎完美的密鑰檢索精度。Mamba的作者Albert Gu對(duì)此表示贊賞,并指出狀態(tài)空間模型(SSM)在狀態(tài)容量和長(zhǎng)上下文能力方面的潛力。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)訓(xùn)練上下文長(zhǎng)度達(dá)到或超過某個(gè)臨界值時(shí),模型的泛化能力會(huì)顯著提升。
3. 狀態(tài)崩潰與容量上限
狀態(tài)崩潰(SC)指的是模型在輸入超過訓(xùn)練長(zhǎng)度時(shí)表現(xiàn)異常,導(dǎo)致性能下降。研究發(fā)現(xiàn),Mamba-2和RWKV-6在訓(xùn)練長(zhǎng)度之外的語(yǔ)言建模損失顯著增加。為了解決這一問題,研究提出了三種方法:增加狀態(tài)衰減量、對(duì)狀態(tài)進(jìn)行歸一化以及利用狀態(tài)差異的滑動(dòng)窗口機(jī)制。
4. 實(shí)驗(yàn)結(jié)果與結(jié)論
通過實(shí)驗(yàn),研究人員訓(xùn)練了多種配置的Mamba-2模型,結(jié)果顯示,狀態(tài)歸一化在較短序列上的表現(xiàn)不如其他方法。總的來說,研究團(tuán)隊(duì)成功抑制了狀態(tài)崩潰,使模型能夠在超過64K token的上下文中泛化,從而為RNN模型的未來應(yīng)用開辟了新的可能性。
綜上所述,Mamba模型的研究表明,通過適當(dāng)?shù)挠?xùn)練策略和模型調(diào)整,RNN在長(zhǎng)上下文處理中的潛力仍然值得期待。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)