AIGC動態歡迎閱讀
原標題:基礎架構競爭激烈,LSTM原作者提出指數門控xLSTM,性能直逼Transformer和Mamba
關鍵字:門控,模型,作者,記憶,向量
文章來源:大數據文摘
內容字數:7512字
內容摘要:
大數據文摘授權轉載自將門創投
作者:seven_
經典長短時記憶網絡(LSTM)架構最早可以追溯到20世紀90年代,因其獨特的常量誤差傳遞(constant error carousel,CEC)和門控(gating)機制而在處理各種時序序列數據任務中展示出了卓越的性能,尤其是在早期的大型語言模型(LLM)中發揮了關鍵作用。然而,隨著Transformer架構的出現,其高度可并行化運行的自注意力機制使得模型可以拓展到更大規模的應用中,導致LSTM的地位逐漸被取代。
近日,LSTM的原作者Sepp Hochreiter帶隊對LSTM框架進行了全新升級,重點針對LSTM缺乏并行處理能力以及在存儲容量和靈活性上的缺陷進行了改進,提出了一種稱為xLSTM的全新架構。xLSTM提出了兩種新的內存單元設計:一種是使用標量內存和標量更新的sLSTM,它引入了新的記憶混合技術;另一種是mLSTM,它使用矩陣內存并能完全并行計算,采用協方差更新規則。
作者通過實驗證明,xLSTM與最先進的Transformer模型和狀態空間模型(SSM)相比,顯示出了優越的性能和良好的可擴展性。這表明,通過對傳統LST
原文鏈接:基礎架構競爭激烈,LSTM原作者提出指數門控xLSTM,性能直逼Transformer和Mamba
聯系作者
文章來源:大數據文摘
作者微信:BigDataDigest
作者簡介:普及數據思維,傳播數據文化
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...