Mamba再次挑戰(zhàn)霸主Transformer!首個(gè)通用Mamba開(kāi)源大模型一鳴驚人
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Mamba再次挑戰(zhàn)霸主Transformer!首個(gè)通用Mamba開(kāi)源大模型一鳴驚人
關(guān)鍵字:模型,架構(gòu),序列,政策,內(nèi)存
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部
【新智元導(dǎo)讀】TII開(kāi)源全球第一個(gè)通用的大型Mamba架構(gòu)模型Falcon Mamba 7B,性能與Transformer架構(gòu)模型相媲美,在多個(gè)基準(zhǔn)測(cè)試上的均分超過(guò)了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技術(shù)創(chuàng)新研究所(TII) 開(kāi)源了全球第一個(gè)通用的大型Mamba架構(gòu)模型——Falcon Mamba 7B。
雖然之前Mistral已經(jīng)發(fā)過(guò)Mamba架構(gòu)的Codestral Mamba模型,但僅針對(duì)編碼;Falcon Mamba則是通用模型,能夠處理各種文本生成任務(wù)。
它是繼Falcon 180B、Falcon 40B和Falcon 2之后TII的第四個(gè)開(kāi)放模型,與Falcon系列之前的型號(hào)不同,F(xiàn)alcon Mamba 7B完全采用SSLM架構(gòu)而不是傳統(tǒng)的Transformer架構(gòu)。
Mamba架構(gòu)橫空出世后,體現(xiàn)出了內(nèi)存效率方面的顯著優(yōu)勢(shì),無(wú)需額外的內(nèi)存需求即可生成大量文本。
如今,SSLM正在逐漸蠶食Transformer架構(gòu)原本「大一統(tǒng)」的地位。
測(cè)評(píng)數(shù)據(jù)顯示,F(xiàn)alcon Mamba 7B性能已經(jīng)超越同尺寸級(jí)別的領(lǐng)先模型
原文鏈接:Mamba再次挑戰(zhàn)霸主Transformer!首個(gè)通用Mamba開(kāi)源大模型一鳴驚人
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: