AIGC動態歡迎閱讀
原標題:一塊錢100萬token,超強MoE模型開源,性能直逼GPT-4-Turbo
關鍵字:模型,中文,基準,語料庫,方面
文章來源:機器之心
內容字數:4811字
內容摘要:
機器之心報道
編輯:陳萍、小舟開源大模型領域,又迎來一位強有力的競爭者。
近日,探索通用人工智能(AGI)本質的 DeepSeek AI 公司開源了一款強大的混合專家 (MoE) 語言模型 DeepSeek-V2,主打訓練成本更低、推理更加高效。項目地址:https://github.com/deepseek-ai/DeepSeek-V2
論文標題:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2 參數量達 236B,其中每個 token 激活 21B 參數,支持 128K token 的上下文長度。與 DeepSeek 67B (該模型去年上線)相比,DeepSeek-V2 實現了更強的性能,同時節省了 42.5% 的訓練成本,減少了 93.3% 的 KV 緩存,并將最大生成吞吐量提升 5.76 倍。DeepSeek-V2 的模型表現非常亮眼:在 AlignBench 基準上超過 GPT-4,接近 GPT-4- turbo;在 MT-Bench
原文鏈接:一塊錢100萬token,超強MoE模型開源,性能直逼GPT-4-Turbo
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...