WAIC 最具技術想象力成果發布：新架構面壁小鋼炮又一次驗證并加速了面壁定律

AIGC動態1年前 (2024)發布 AI科技評論

AIGC動態歡迎閱讀

原標題：WAIC 最具技術想象力成果發布：新架構面壁小鋼炮又一次驗證并加速了面壁定律
關鍵字：模型,高效,神經元,定律,開發者
文章來源：AI科技評論
內容字數：0字

內容摘要：

在非階段打「先手」。作者丨王悅
編輯丨陳彩嫻
2020 年，1750 億參數規模的 GPT-3 問世。彼時，完整訓練 1750 億參數的模型需要 3.14E11（TFLOPS）的每秒浮點運算量。如果使用英偉達 80GB A100 GPU（16位浮點算力有 312 TFLOPS，但在分布式環境中很難達到峰值），按照每張顯卡 1.5 刀每小時的租賃價格來算，則需要使用一千張 A100 、花費81.6 萬刀、用 22 天才能完成整個訓練過程。
2024 年，大模型只需使用 2B 的參數規模即可達到和 2020 年的 GPT-3 一樣的性能表現。
這一現象，類似于半導體領域中的「摩爾定律」——集成電路上可容納的晶體管數目約每隔兩年便會增加一倍，芯片性能因此持續提升。芯片制程帶來終端算力持續增強，模型制程帶來模型知識密度持續增強，兩者交匯揭示端側智能巨大潛力。
面壁此前推出的端側多模態大模型—— MiniCPM-Llama3-V 2.5 ，實現了「以最小參數，撬動最強性能」的最佳平衡點。
而大模型行業也有自己的摩爾定律，縱觀 OpenAI 的 GPT 系列大模型和各類開源大模型，會發現大家都

原文鏈接：WAIC 最具技術想象力成果發布：新架構面壁小鋼炮又一次驗證并加速了面壁定律