Grok-1 是由馬斯克創辦的人工智能初創公司 xAI 推出的最新大型語言模型,作為一個混合專家(MoE)模型,它擁有驚人的 3140 億參數,這使其成為當前參數數量最多的開源大語言模型。Grok-1 的開發過程遵循開源原則,所有權重和網絡結構均已公開,基于 Apache 2.0 許可,用戶可以使用、修改和分發,無論是個人還是商業用途均可。
Grok-1是什么
Grok-1 是由馬斯克旗下的人工智能初創公司 xAI 開發的一款大型語言模型,它作為一個混合專家(MoE)模型,擁有 3140 億參數,成為現今參數量最大的開源大語言模型。基于開源的理念,Grok-1 的訓練和開發過程均公開,允許用戶在 Apache 2.0 許可下使用、修改和分發。
Grok-1的官網入口
- 官方文章介紹:https://x.ai/blog/grok-os
- GitHub地址:https://github.com/xai-org/grok-1
- Hugging Face地址:https://huggingface.co/xai-org/grok-1
- 模型權重下載:
magnet:"https://x.ai/model-card/" target="_blank" rel="noopener nofollow" rel="nofollow noopener">https://x.ai/model-card/),Grok-1的信息如下:
項目 詳細信息 模型細節 Grok-1是一個基于Transformer的自回歸模型,預訓練用于下一個token預測。該模型通過來自人類和早期Grok-0模型的廣泛反饋進行了微調。初始版本的Grok-1具有8192個token的上下文長度,并在2023年11月發布。 預期用途 Grok-1旨在用作Grok機器人背后的引擎,可用于問答、信息檢索、創意寫作和編程輔助等多種自然語言處理任務。 局限性 盡管Grok-1在信息處理方面表現出色,但仍需人類對其輸出進行審查以確保準確性。該語言模型無法搜索互聯網。在Grok中部署時,結合搜索工具和數據庫能夠提升模型的能力和準確性。即便如此,模型有時仍可能產生不準確的內容。 訓練數據 Grok-1發布版本所使用的訓練數據來自截至2023年第三季度的互聯網,及xAI的AI訓練人員提供的數據。 評估 Grok-1在多項推理基準任務和精選的國際數學考試問題上進行了評估。xAI已與早期用戶進行接觸,評估了包括對抗在內的Grok-1版本。xAI正在通過Grok的早期訪問擴大早期采用者的范圍,以便進行封閉的beta測試。 Grok-1的技術細節
- 基礎模型和訓練:Grok-1是基于大量文本數據進行訓練的,并未針對任何特定任務進行微調,意味著它是一個通用語言模型,適用于多種自然語言處理任務。它的訓練使用了JAX庫和Rust語言構建的定制訓練堆棧。
- 參數數量:Grok-1擁有3140億個參數,是目前參數量最大的開源大語言模型。每個token的激活權重為25%,展示了模型的規模與復雜性。
- 混合專家模型(MoE):Grok-1采用混合專家系統設計,將多個專家網絡結合,提高了模型的效率與性能。在Grok-1中,每個token會從8個專家中選擇2個進行處理。
- 激活參數:Grok-1的激活參數數量達到860億,遠超Llama-2的70B參數,顯示出其在語言任務處理上的潛力。
- 嵌入和位置嵌入:Grok-1使用旋轉嵌入而非固定位置嵌入,這種方法增強了模型處理長文本的能力。其Tokenizer詞匯量為131,072,類似于GPT-4,嵌入大小為6,144。
- Transformer層:該模型包含64個Transformer層,每層由多頭注意力塊和密集塊組成。多頭注意力塊有48個用于查詢的頭,8個用于鍵/值(KV),KV大小為128。密集塊的加寬因子為8,隱藏層大小為32,768。
- 量化:Grok-1還提供部分權重的8bit量化,減少了模型的存儲和計算需求,使其更適合在資源有限的環境中運行。
- 運行要求:由于Grok-1是一個超大規模模型(314B參數),需要具備足夠GPU內存的機器才能運行。估計需要一臺擁有628GB GPU內存的機器(每個參數2字節)。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...