AIGC動態歡迎閱讀
原標題:WAIC 最具技術想象力成果發布:新架構面壁小鋼炮又一次驗證并加速了面壁定律
關鍵字:模型,高效,神經元,定律,開發者
文章來源:AI科技評論
內容字數:0字
內容摘要:
在非階段打「先手」。作者丨王悅
編輯丨陳彩嫻
2020 年,1750 億參數規模的 GPT-3 問世。彼時,完整訓練 1750 億參數的模型需要 3.14E11(TFLOPS)的每秒浮點運算量。如果使用英偉達 80GB A100 GPU(16位浮點算力有 312 TFLOPS,但在分布式環境中很難達到峰值),按照每張顯卡 1.5 刀每小時的租賃價格來算,則需要使用一千張 A100 、花費81.6 萬刀、用 22 天才能完成整個訓練過程。
2024 年,大模型只需使用 2B 的參數規模即可達到和 2020 年的 GPT-3 一樣的性能表現。
這一現象,類似于半導體領域中的「摩爾定律」——集成電路上可容納的晶體管數目約每隔兩年便會增加一倍,芯片性能因此持續提升。芯片制程帶來終端算力持續增強,模型制程帶來模型知識密度持續增強,兩者交匯揭示端側智能巨大潛力。
面壁此前推出的端側多模態大模型—— MiniCPM-Llama3-V 2.5 ,實現了「以最小參數,撬動最強性能」的最佳平衡點。
而大模型行業也有自己的摩爾定律,縱觀 OpenAI 的 GPT 系列大模型和各類開源大模型,會發現大家都
原文鏈接:WAIC 最具技術想象力成果發布:新架構面壁小鋼炮又一次驗證并加速了面壁定律
聯系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...