WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律
AIGC動態(tài)歡迎閱讀
原標(biāo)題:WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律
關(guān)鍵字:模型,高效,神經(jīng)元,定律,開發(fā)者
文章來源:AI科技評論
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
在非階段打「先手」。作者丨王悅
編輯丨陳彩嫻
2020 年,1750 億參數(shù)規(guī)模的 GPT-3 問世。彼時(shí),完整訓(xùn)練 1750 億參數(shù)的模型需要 3.14E11(TFLOPS)的每秒浮點(diǎn)運(yùn)算量。如果使用英偉達(dá) 80GB A100 GPU(16位浮點(diǎn)算力有 312 TFLOPS,但在分布式環(huán)境中很難達(dá)到峰值),按照每張顯卡 1.5 刀每小時(shí)的租賃價(jià)格來算,則需要使用一千張 A100 、花費(fèi)81.6 萬刀、用 22 天才能完成整個(gè)訓(xùn)練過程。
2024 年,大模型只需使用 2B 的參數(shù)規(guī)模即可達(dá)到和 2020 年的 GPT-3 一樣的性能表現(xiàn)。
這一現(xiàn)象,類似于半導(dǎo)體領(lǐng)域中的「摩爾定律」——集成電路上可容納的晶體管數(shù)目約每隔兩年便會增加一倍,芯片性能因此持續(xù)提升。芯片制程帶來終端算力持續(xù)增強(qiáng),模型制程帶來模型知識密度持續(xù)增強(qiáng),兩者交匯揭示端側(cè)智能巨大潛力。
面壁此前推出的端側(cè)多模態(tài)大模型—— MiniCPM-Llama3-V 2.5 ,實(shí)現(xiàn)了「以最小參數(shù),撬動最強(qiáng)性能」的最佳平衡點(diǎn)。
而大模型行業(yè)也有自己的摩爾定律,縱觀 OpenAI 的 GPT 系列大模型和各類開源大模型,會發(fā)現(xiàn)大家都
原文鏈接:WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律
聯(lián)系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。
相關(guān)文章
