AIGC動態歡迎閱讀
原標題:Mamba寫代碼真的超越Transformer!原始論文入選頂流新會議
關鍵字:架構,模型,基準,數學模型,量子
文章來源:量子位
內容字數:0字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAI“歐洲OpenAI”和“Transformer挑戰者”強強聯合了!
Mistral AI剛剛推出了其第一個基于Mamba2架構的開源模型——Codestral Mamba(7B),專搞代碼生成。
與Transformer架構不同,Mamba架構可進行“線性時間推理”,理論上能夠支持無限長度輸入。
Mistral AI:這也就是為啥我們用Mamba架構推出的代碼推理模型抗打。
Mistral AI表示已經在最多256k token上下文中測試了Codestral Mamba。
基準測試中,Codestral Mamba總體性能超越CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
有網友表示,這一波是Mistral AI要帶飛Mamba架構的節奏。
Mamba架構作者之一、CMU助理教授Albert Gu表示:
具有較弱“tokenizations”的不同模態或數據格式(例如代碼、byte級建模)會越來越多地從壓縮模型(如SSM)中受益。
除了Codestral Ma
原文鏈接:Mamba寫代碼真的超越Transformer!原始論文入選頂流新會議
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...