AIGC動態歡迎閱讀
原標題:被低估的面壁:打造出不輸 OpenAI 的 Scaling Law 曲線
關鍵字:模型,報告,知乎,團隊,參數
文章來源:AI科技評論
內容字數:14869字
內容摘要:
領先 Mistral,對標 Mistral,超越 Mistral。作者丨王悅
編輯丨陳彩嫻
大約 1 個月前,馬斯克所創辦的 xAI 團隊宣布開源 Grok-1——一個參數量為 3140 億的 MoE 大模型。從參數量來看,Grok-1 超越了 70B 的 LLaMA 2,是當前開源模型中最大的一個,被調侃為「龐然大物」。
然而,有研究人員測試卻發現,參數規模量如此巨大的 Grok-1 ,效果竟然只與 Mistral AI 的 8x7B MoE 模型相當。也因此,業內人士評價,「Grok-1 在這么大的參數量規模上只實現了這么小的效果,實際是失敗的。」
在大模型中,參數量大、不等于模型性能好。早在 2021 年 6 月,面壁智能初始團隊就發布了千億 MoE 大模型 CPM-2 ,是最早關注到這一問題的 AI 團隊之一。
面壁智能 CTO 曾國洋告訴 AI 科技評論,他們從 2020 年 GPT-3 出來后開始訓練大模型,也是走過一些彎路后才逐漸認識到,“提升模型效果是大模型訓練的根本目標,但這并不意味著一定要通過擴大參數量規模和燃燒高昂的算力成本來實現。”
相反,“讓每一個參數發揮最大
原文鏈接:被低估的面壁:打造出不輸 OpenAI 的 Scaling Law 曲線
聯系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...