Bamba-9B

Bamba-9B – 基于 Mamba2 架構(gòu)的僅解碼語言模型

Bamba-9B是由IBM、普林斯頓大學、卡內(nèi)基梅隆大學和伊利諾伊大學香檳分校共同開發(fā)的先進語言模型，基于Mamba2架構(gòu)，專注于解碼任務(wù)。該模型在開放數(shù)據(jù)集上進行訓練，顯著提升了大型語言模型在推理過程中的效率，尤其是在處理長文本時有效緩解了內(nèi)存帶寬的瓶頸。

Bamba-9B是什么

Bamba-9B是IBM、普林斯頓大學、卡內(nèi)基梅隆大學和伊利諾伊大學香檳分校聯(lián)合推出的基于Mamba2架構(gòu)的解碼語言模型。模型經(jīng)過開放數(shù)據(jù)集的全面訓練，旨在提高大型語言模型的推理效率，特別是在處理長文本時，解決內(nèi)存帶寬瓶頸問題。Bamba-9B在推理時相較于傳統(tǒng)變換器模型展現(xiàn)出2.5倍的吞吐量提升和2倍的延遲加速。訓練過程中使用了2.2萬億個token，這進一步驗證了新興架構(gòu)的潛力，并在與最先進的變換器模型競爭的同時，提供了更高的推理效率。

Bamba-9B

Bamba-9B的主要功能

推理效率提升：Bamba-9B的設(shè)計目標是顯著提升大型語言模型在推理時的效率，尤其是在處理長文本時，減少內(nèi)存帶寬瓶頸。
吞吐量和延遲優(yōu)化：與標準變換器模型相比，Bamba-9B在推理過程中實現(xiàn)了2.5倍的吞吐量提升和2倍的延遲加速。
開放數(shù)據(jù)集訓練：Bamba-9B完全利用開放數(shù)據(jù)集進行訓練，增強了社區(qū)的透明度與實驗的可復制性。
多平臺兼容：Bamba-9B可在多個開源平臺上使用，包括transformers、vLLM、TRL和llama.cpp。

Bamba-9B的技術(shù)原理

混合Mamba2架構(gòu)：基于Mamba2架構(gòu)，這種新型架構(gòu)能夠保持KV-cache大小不變，從而消除內(nèi)存帶寬瓶頸。
恒定KV-cache：Mamba2架構(gòu)解決了隨著上下文長度增加而導致的KV-cache內(nèi)存需求增加的問題。
兩階段訓練方法：采用兩階段訓練策略，第一階段使用Dolma v1.7數(shù)據(jù)集進行初步訓練，第二階段則利用Fineweb-edu和Cosmopedia等高質(zhì)量數(shù)據(jù)集進行進一步訓練。
分布式數(shù)據(jù)加載器：推出無狀態(tài)分布式數(shù)據(jù)加載器，支持大規(guī)模分布式訓練，并與Torch Titan完美兼容。
量化技術(shù)：支持模型量化，利用llm-compressor將模型量化至fp8，在減小模型體積的同時提升推理速度，保持準確性。
擴展上下文長度：Bamba-9B探索長上下文長度擴展技術(shù)，如將LongRope應(yīng)用于全注意力層，以處理更長的上下文。