非Transformer架構(gòu)站起來了!首個(gè)純無注意力大模型,超越開源巨頭Llama 3.1
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:非Transformer架構(gòu)站起來了!首個(gè)純無注意力大模型,超越開源巨頭Llama 3.1
關(guān)鍵字:模型,架構(gòu),數(shù)據(jù),上下文,基準(zhǔn)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:杜偉、陳陳Mamba 架構(gòu)的大模型又一次向 Transformer 發(fā)起了挑戰(zhàn)。Mamba 架構(gòu)模型這次終于要「站」起來了?自 2023 年 12 月首次推出以來,Mamba 便成為了 Transformer 的強(qiáng)有力競爭對(duì)手。
此后,采用 Mamba 架構(gòu)的模型不斷出現(xiàn),比如 Mistral 發(fā)布的首個(gè)基于 Mamba 架構(gòu)的開源大模型 Codestral 7B。
今天,阿布扎比技術(shù)創(chuàng)新研究所(TII)發(fā)布了一個(gè)新的開源 Mamba 模型 ——Falcon Mamba 7B。先來總結(jié)一波 Falcon Mamba 7B 的亮點(diǎn):無需增加內(nèi)存存儲(chǔ),就可以處理任意長度的序列,并且能夠在單個(gè) 24GB A10 GPU 上運(yùn)行。
目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B,這個(gè)僅用因果解碼器的模型采用了新穎的 Mamba 狀態(tài)空間語言模型(State Space Language Model, SSLM)架構(gòu)來處理各種文本生成任務(wù)。
從結(jié)果來看,F(xiàn)alcon Mamba 7B 在一些基準(zhǔn)上超越同尺寸級(jí)別的領(lǐng)先模型,包括 Meta 的
原文鏈接:非Transformer架構(gòu)站起來了!首個(gè)純無注意力大模型,超越開源巨頭Llama 3.1
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: