AIGC動態歡迎閱讀
原標題:GPT-4級模型Grok開源可商用!卷底層大模型的公司危了
關鍵字:模型,權重,參數,上下文,精度
文章來源:夕小瑤科技說
內容字數:1565字
內容摘要:
夕小瑤科技說 原創作者 | 醒醒上周,馬斯克宣布 xAI 將開源 Grok。
剛剛,馬斯克終于兌現諾言,xAI 宣布開源了 Grok-1 的模型權重和網絡架構。
Grok-1 是一個擁有 3140億 參數的專家混合模型,由xAI從頭開始訓練,模型實際只有 25% 的參數被激活,也就是實際激活的參數數量只有 86B。
這個架構和參數量,與網傳的GPT-4模型高度相似,完全可以說是有意為之的GPT-4復刻版了。
xAI 官方博客中 提到Grok-1模型由8個專家組成,64層Transformer,每層包括多頭注意力塊和密集塊。模型的上下文長度為 8192個token,采用bf16計算精度,權重使用 8bit 量化。
Grok-1 模型是在大量文本數據上訓練,訓練完成和模型權重保存截止到 2023年10月,未針對任何特定任務進行微調。
此外,還包含了模型的技術細節:
? 使用了旋轉位置嵌入(Rotary Embeddings),提高了模型的位置編碼能力。
? 131072個詞量,embedding-dim為6144,64層Transformer。
? 上下文長度達到8192個 token,采
原文鏈接:GPT-4級模型Grok開源可商用!卷底層大模型的公司危了
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...