Mamba寫代碼真的超越Transformer!原始論文入選頂流新會(huì)議
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Mamba寫代碼真的超越Transformer!原始論文入選頂流新會(huì)議
關(guān)鍵字:架構(gòu),模型,基準(zhǔn),數(shù)學(xué)模型,量子
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI“歐洲OpenAI”和“Transformer挑戰(zhàn)者”強(qiáng)強(qiáng)聯(lián)合了!
Mistral AI剛剛推出了其第一個(gè)基于Mamba2架構(gòu)的開源模型——Codestral Mamba(7B),專搞代碼生成。
與Transformer架構(gòu)不同,Mamba架構(gòu)可進(jìn)行“線性時(shí)間推理”,理論上能夠支持無限長(zhǎng)度輸入。
Mistral AI:這也就是為啥我們用Mamba架構(gòu)推出的代碼推理模型抗打。
Mistral AI表示已經(jīng)在最多256k token上下文中測(cè)試了Codestral Mamba。
基準(zhǔn)測(cè)試中,Codestral Mamba總體性能超越CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
有網(wǎng)友表示,這一波是Mistral AI要帶飛Mamba架構(gòu)的節(jié)奏。
Mamba架構(gòu)作者之一、CMU助理教授Albert Gu表示:
具有較弱“tokenizations”的不同模態(tài)或數(shù)據(jù)格式(例如代碼、byte級(jí)建模)會(huì)越來越多地從壓縮模型(如SSM)中受益。
除了Codestral Ma
原文鏈接:Mamba寫代碼真的超越Transformer!原始論文入選頂流新會(huì)議
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介: