国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

突破長(zhǎng)上下文建模瓶頸：清華團(tuán)隊(duì)揭示狀態(tài)崩潰的深層原因與解決方案

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

突破長(zhǎng)上下文建模瓶頸：清華團(tuán)隊(duì)揭示狀態(tài)崩潰的深層原因與解決方案

原標(biāo)題：不是RNN的鍋！清華團(tuán)隊(duì)深入分析長(zhǎng)上下文建模中的狀態(tài)崩潰，Mamba作者點(diǎn)贊
文章來源：新智元
內(nèi)容字?jǐn)?shù)：6006字

RNN模型在長(zhǎng)上下文中的表現(xiàn)分析

近日，清華大學(xué)的研究團(tuán)隊(duì)針對(duì)RNN模型在處理長(zhǎng)上下文時(shí)的表現(xiàn)進(jìn)行了深入研究，結(jié)果表明問題并不在于RNN本身，而在于訓(xùn)練過程中的一些限制。

1. RNN的優(yōu)勢(shì)與挑戰(zhàn)

RNN模型在應(yīng)對(duì)長(zhǎng)序列方面具有顯著優(yōu)勢(shì)，例如Mamba模型，它的內(nèi)部狀態(tài)大小始終保持不變，計(jì)算復(fù)雜度隨序列長(zhǎng)度線性增長(zhǎng)。然而，當(dāng)前的RNN模型在長(zhǎng)上下文中的實(shí)際表現(xiàn)卻不盡如人意，主要面臨兩個(gè)問題：一是無(wú)法處理超過訓(xùn)練長(zhǎng)度的輸入，二是內(nèi)存容量有限，導(dǎo)致新信息無(wú)法有效存儲(chǔ)。

2. 研究發(fā)現(xiàn)與模型改進(jìn)

研究表明，Mamba-2模型在256K上下文長(zhǎng)度上達(dá)到了近乎完美的密鑰檢索精度。Mamba的作者Albert Gu對(duì)此表示贊賞，并指出狀態(tài)空間模型（SSM）在狀態(tài)容量和長(zhǎng)上下文能力方面的潛力。實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)訓(xùn)練上下文長(zhǎng)度達(dá)到或超過某個(gè)臨界值時(shí)，模型的泛化能力會(huì)顯著提升。

3. 狀態(tài)崩潰與容量上限

狀態(tài)崩潰（SC）指的是模型在輸入超過訓(xùn)練長(zhǎng)度時(shí)表現(xiàn)異常，導(dǎo)致性能下降。研究發(fā)現(xiàn)，Mamba-2和RWKV-6在訓(xùn)練長(zhǎng)度之外的語(yǔ)言建模損失顯著增加。為了解決這一問題，研究提出了三種方法：增加狀態(tài)衰減量、對(duì)狀態(tài)進(jìn)行歸一化以及利用狀態(tài)差異的滑動(dòng)窗口機(jī)制。

4. 實(shí)驗(yàn)結(jié)果與結(jié)論

通過實(shí)驗(yàn)，研究人員訓(xùn)練了多種配置的Mamba-2模型，結(jié)果顯示，狀態(tài)歸一化在較短序列上的表現(xiàn)不如其他方法。總的來說，研究團(tuán)隊(duì)成功抑制了狀態(tài)崩潰，使模型能夠在超過64K token的上下文中泛化，從而為RNN模型的未來應(yīng)用開辟了新的可能性。

綜上所述，Mamba模型的研究表明，通過適當(dāng)?shù)挠?xùn)練策略和模型調(diào)整，RNN在長(zhǎng)上下文處理中的潛力仍然值得期待。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文