一塊錢100萬token,超強(qiáng)MoE模型開源,性能直逼GPT-4-Turbo
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一塊錢100萬token,超強(qiáng)MoE模型開源,性能直逼GPT-4-Turbo
關(guān)鍵字:模型,中文,基準(zhǔn),語料庫,方面
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4811字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:陳萍、小舟開源大模型領(lǐng)域,又迎來一位強(qiáng)有力的競爭者。
近日,探索通用人工智能(AGI)本質(zhì)的 DeepSeek AI 公司開源了一款強(qiáng)大的混合專家 (MoE) 語言模型 DeepSeek-V2,主打訓(xùn)練成本更低、推理更加高效。項(xiàng)目地址:https://github.com/deepseek-ai/DeepSeek-V2
論文標(biāo)題:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2 參數(shù)量達(dá) 236B,其中每個(gè) token 激活 21B 參數(shù),支持 128K token 的上下文長度。與 DeepSeek 67B (該模型去年上線)相比,DeepSeek-V2 實(shí)現(xiàn)了更強(qiáng)的性能,同時(shí)節(jié)省了 42.5% 的訓(xùn)練成本,減少了 93.3% 的 KV 緩存,并將最大生成吞吐量提升 5.76 倍。DeepSeek-V2 的模型表現(xiàn)非常亮眼:在 AlignBench 基準(zhǔn)上超過 GPT-4,接近 GPT-4- turbo;在 MT-Bench
原文鏈接:一塊錢100萬token,超強(qiáng)MoE模型開源,性能直逼GPT-4-Turbo
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)