無(wú)注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:無(wú)注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
關(guān)鍵字:模型,基準(zhǔn),架構(gòu),性能,英語(yǔ)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3403字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:陳萍Eagle 7B 可將推理成本降低 10-100 倍。在 AI 賽道中,與動(dòng)輒上千億參數(shù)的模型相比,最近,小模型開始受到大家的青睞。比如法國(guó) AI 初創(chuàng)公司發(fā)布的 Mistral-7B 模型,其在每個(gè)基準(zhǔn)測(cè)試中,都優(yōu)于 Llama 2 13B,并且在代碼、數(shù)學(xué)和推理方面也優(yōu)于 LLaMA 1 34B。
與大模型相比,小模型具有很多優(yōu)點(diǎn),比如對(duì)算力的要求低、可在端側(cè)運(yùn)行等。
近日,又有一個(gè)新的語(yǔ)言模型出現(xiàn)了,即 7.52B 參數(shù) Eagle 7B,來(lái)自開源非盈利組織 RWKV,其具有以下特點(diǎn):基于 RWKV-v5 架構(gòu)構(gòu)建,該架構(gòu)的推理成本較低(RWKV 是一個(gè)線性 transformer,推理成本降低 10-100 倍以上);
在 100 多種語(yǔ)言、1.1 萬(wàn)億 token 上訓(xùn)練而成;
在多語(yǔ)言基準(zhǔn)測(cè)試中優(yōu)于所有的 7B 類模型;
在英語(yǔ)評(píng)測(cè)中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
英語(yǔ)評(píng)測(cè)中與 MPT-7B (1T) 相當(dāng);
沒有注意力的 Transformer。前面我們已經(jīng)了解到 Eagle 7B
原文鏈接:無(wú)注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)