無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
AIGC動態(tài)歡迎閱讀
原標題:無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
關(guān)鍵字:模型,基準,架構(gòu),性能,英語
文章來源:機器之心
內(nèi)容字數(shù):3403字
內(nèi)容摘要:
機器之心報道
編輯:陳萍Eagle 7B 可將推理成本降低 10-100 倍。在 AI 賽道中,與動輒上千億參數(shù)的模型相比,最近,小模型開始受到大家的青睞。比如法國 AI 初創(chuàng)公司發(fā)布的 Mistral-7B 模型,其在每個基準測試中,都優(yōu)于 Llama 2 13B,并且在代碼、數(shù)學和推理方面也優(yōu)于 LLaMA 1 34B。
與大模型相比,小模型具有很多優(yōu)點,比如對算力的要求低、可在端側(cè)運行等。
近日,又有一個新的語言模型出現(xiàn)了,即 7.52B 參數(shù) Eagle 7B,來自開源非盈利組織 RWKV,其具有以下特點:基于 RWKV-v5 架構(gòu)構(gòu)建,該架構(gòu)的推理成本較低(RWKV 是一個線性 transformer,推理成本降低 10-100 倍以上);
在 100 多種語言、1.1 萬億 token 上訓練而成;
在多語言基準測試中優(yōu)于所有的 7B 類模型;
在英語評測中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
英語評測中與 MPT-7B (1T) 相當;
沒有注意力的 Transformer。前面我們已經(jīng)了解到 Eagle 7B
原文鏈接:無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺