AIGC動態歡迎閱讀
原標題:非Transformer架構新模型爆火,從第一性原理出發,MIT CSAIL衍生團隊打造
關鍵字:模型,人工智能,架構,團隊,神經網絡
文章來源:量子位
內容字數:0字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAI挑戰Transformer,MIT初創團隊推出LFM(Liquid Foundation Model)新架構模型爆火。
LFM 1.3B、LFM 3B兩個不同大小的模型,性能超越同等規模Llama3.2等Transformer模型。
LFM架構還有很好的可擴展性,團隊還推出了基于MoE的LFM 40B(激活12B參數),能與更大規模的密集模型或MoE模型相媲美。
LFM用的是一種液態神經網絡(LNN),從第一性原理出發而構建,其計算單元植根于動態系統理論、信號處理和數值線性代數。
這種架構還有一個特點:在內存效率方面特別強。
基于Transformer的LLM中的KV緩存在長上下文中會急劇增長,而LFM即使在處理100萬個token時也能保持內存最小。
小巧便攜,使得它能夠直接部署在手機上進行文檔和書籍等分析。
LFM模型背后是一支MIT計算科學與人工智能實驗室衍生出來的小團隊,名叫Liquid AI。
其后訓練負責人Maxime Labonne在X上為自家模型瘋狂打Call:
這三個具有SOTA性能的模型,是我職業生涯中最值得驕傲的版
原文鏈接:非Transformer架構新模型爆火,從第一性原理出發,MIT CSAIL衍生團隊打造
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...