GPT-4級(jí)模型Grok開(kāi)源可商用!卷底層大模型的公司危了

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4級(jí)模型Grok開(kāi)源可商用!卷底層大模型的公司危了
關(guān)鍵字:模型,權(quán)重,參數(shù),上下文,精度
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):1565字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 醒醒上周,馬斯克宣布 xAI 將開(kāi)源 Grok。
剛剛,馬斯克終于兌現(xiàn)諾言,xAI 宣布開(kāi)源了 Grok-1 的模型權(quán)重和網(wǎng)絡(luò)架構(gòu)。
Grok-1 是一個(gè)擁有 3140億 參數(shù)的專家混合模型,由xAI從頭開(kāi)始訓(xùn)練,模型實(shí)際只有 25% 的參數(shù)被激活,也就是實(shí)際激活的參數(shù)數(shù)量只有 86B。
這個(gè)架構(gòu)和參數(shù)量,與網(wǎng)傳的GPT-4模型高度相似,完全可以說(shuō)是有意為之的GPT-4復(fù)刻版了。
xAI 官方博客中 提到Grok-1模型由8個(gè)專家組成,64層Transformer,每層包括多頭注意力塊和密集塊。模型的上下文長(zhǎng)度為 8192個(gè)token,采用bf16計(jì)算精度,權(quán)重使用 8bit 量化。
Grok-1 模型是在大量文本數(shù)據(jù)上訓(xùn)練,訓(xùn)練完成和模型權(quán)重保存截止到 2023年10月,未針對(duì)任何特定任務(wù)進(jìn)行微調(diào)。
此外,還包含了模型的技術(shù)細(xì)節(jié):
? 使用了旋轉(zhuǎn)位置嵌入(Rotary Embeddings),提高了模型的位置編碼能力。
? 131072個(gè)詞量,embedding-dim為6144,64層Transformer。
? 上下文長(zhǎng)度達(dá)到8192個(gè) token,采
原文鏈接:GPT-4級(jí)模型Grok開(kāi)源可商用!卷底層大模型的公司危了
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI一線開(kāi)發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)湫袠I(yè)嗅覺(jué)與報(bào)道深度。

粵公網(wǎng)安備 44011502001135號(hào)