AIGC動態歡迎閱讀
原標題:無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
關鍵字:模型,基準,架構,性能,英語
文章來源:機器之心
內容字數:3403字
內容摘要:
機器之心報道
編輯:陳萍Eagle 7B 可將推理成本降低 10-100 倍。在 AI 賽道中,與動輒上千億參數的模型相比,最近,小模型開始受到大家的青睞。比如法國 AI 初創公司發布的 Mistral-7B 模型,其在每個基準測試中,都優于 Llama 2 13B,并且在代碼、數學和推理方面也優于 LLaMA 1 34B。
與大模型相比,小模型具有很多優點,比如對算力的要求低、可在端側運行等。
近日,又有一個新的語言模型出現了,即 7.52B 參數 Eagle 7B,來自開源非盈利組織 RWKV,其具有以下特點:基于 RWKV-v5 架構構建,該架構的推理成本較低(RWKV 是一個線性 transformer,推理成本降低 10-100 倍以上);
在 100 多種語言、1.1 萬億 token 上訓練而成;
在多語言基準測試中優于所有的 7B 類模型;
在英語評測中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
英語評測中與 MPT-7B (1T) 相當;
沒有注意力的 Transformer。前面我們已經了解到 Eagle 7B
原文鏈接:無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...