405B為何不用MOE結(jié)構(gòu)?LLaMA 3.1結(jié)構(gòu)及影響解析
AIGC動態(tài)歡迎閱讀
原標(biāo)題:405B為何不用MOE結(jié)構(gòu)?LLaMA 3.1結(jié)構(gòu)及影響解析
關(guān)鍵字:報告,模型,數(shù)據(jù),解讀,結(jié)構(gòu)
文章來源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
直播預(yù)告 |「智猩猩大模型技術(shù)公開課」正式開講啦~8月5日晚7點開講,合合信息智能創(chuàng)新事業(yè)部研發(fā)總監(jiān) 常揚將直播講解《大模型RAG技術(shù)架構(gòu)與應(yīng)用實踐》,內(nèi)容覆蓋RAG關(guān)技術(shù)架構(gòu)、核心模塊及關(guān)鍵技術(shù)精講,歡迎掃名~導(dǎo)讀文章來自知乎,作者為張俊林博士。原文標(biāo)題為“大模型結(jié)構(gòu)的進(jìn)化(一):LLaMA 3.1結(jié)構(gòu)及影響解析”,本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。
本文是作者就LLaMA 3的模型結(jié)構(gòu)、訓(xùn)練過程做些解讀,并對其影響、小模型如何做、合成數(shù)據(jù)等方面的看法。
原文鏈接:https://zhuanlan.zhihu.com/p/710780476LLama 3 405B模型效果已經(jīng)趕上目前最好的閉源模型比如GPT 4o和Claude 3.5,這算是開源屆的大事,技術(shù)報告接近100頁,信息很豐富,粗略看了一下,很有啟發(fā)。這里就LLaMA 3的模型結(jié)構(gòu)、訓(xùn)練過程做些解讀,并對其影響、小模型如何做、合成數(shù)據(jù)等方面談點看法。
01LLaMA 3模型結(jié)構(gòu)LLaMa 3模型結(jié)構(gòu)
LLaMA 3的模型結(jié)構(gòu)如上圖所示,這基本已經(jīng)形成目前Dense LLM模型的標(biāo)準(zhǔn)結(jié)構(gòu)了,絕大多數(shù)LLM模型結(jié)
原文鏈接:405B為何不用MOE結(jié)構(gòu)?LLaMA 3.1結(jié)構(gòu)及影響解析
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介: