Grok-1 是由馬斯克創(chuàng)辦的人工智能初創(chuàng)公司 xAI 推出的最新大型語言模型,作為一個(gè)混合專家(MoE)模型,它擁有驚人的 3140 億參數(shù),這使其成為當(dāng)前參數(shù)數(shù)量最多的開源大語言模型。Grok-1 的開發(fā)過程遵循開源原則,所有權(quán)重和網(wǎng)絡(luò)結(jié)構(gòu)均已公開,基于 Apache 2.0 許可,用戶可以使用、修改和分發(fā),無論是個(gè)人還是商業(yè)用途均可。
Grok-1是什么
Grok-1 是由馬斯克旗下的人工智能初創(chuàng)公司 xAI 開發(fā)的一款大型語言模型,它作為一個(gè)混合專家(MoE)模型,擁有 3140 億參數(shù),成為現(xiàn)今參數(shù)量最大的開源大語言模型。基于開源的理念,Grok-1 的訓(xùn)練和開發(fā)過程均公開,允許用戶在 Apache 2.0 許可下使用、修改和分發(fā)。
Grok-1的官網(wǎng)入口
- 官方文章介紹:https://x.ai/blog/grok-os
- GitHub地址:https://github.com/xai-org/grok-1
- Hugging Face地址:https://huggingface.co/xai-org/grok-1
- 模型權(quán)重下載:
magnet:"https://x.ai/model-card/" target="_blank" rel="noopener nofollow" rel="nofollow noopener">https://x.ai/model-card/),Grok-1的信息如下:
項(xiàng)目 詳細(xì)信息 模型細(xì)節(jié) Grok-1是一個(gè)基于Transformer的自回歸模型,預(yù)訓(xùn)練用于下一個(gè)token預(yù)測。該模型通過來自人類和早期Grok-0模型的廣泛反饋進(jìn)行了微調(diào)。初始版本的Grok-1具有8192個(gè)token的上下文長度,并在2023年11月發(fā)布。 預(yù)期用途 Grok-1旨在用作Grok機(jī)器人背后的引擎,可用于問答、信息檢索、創(chuàng)意寫作和編程輔助等多種自然語言處理任務(wù)。 局限性 盡管Grok-1在信息處理方面表現(xiàn)出色,但仍需人類對(duì)其輸出進(jìn)行審查以確保準(zhǔn)確性。該語言模型無法搜索互聯(lián)網(wǎng)。在Grok中部署時(shí),結(jié)合搜索工具和數(shù)據(jù)庫能夠提升模型的能力和準(zhǔn)確性。即便如此,模型有時(shí)仍可能產(chǎn)生不準(zhǔn)確的內(nèi)容。 訓(xùn)練數(shù)據(jù) Grok-1發(fā)布版本所使用的訓(xùn)練數(shù)據(jù)來自截至2023年第三季度的互聯(lián)網(wǎng),及xAI的AI訓(xùn)練人員提供的數(shù)據(jù)。 評(píng)估 Grok-1在多項(xiàng)推理基準(zhǔn)任務(wù)和精選的國際數(shù)學(xué)考試問題上進(jìn)行了評(píng)估。xAI已與早期用戶進(jìn)行接觸,評(píng)估了包括對(duì)抗在內(nèi)的Grok-1版本。xAI正在通過Grok的早期訪問擴(kuò)大早期采用者的范圍,以便進(jìn)行封閉的beta測試。 Grok-1的技術(shù)細(xì)節(jié)
- 基礎(chǔ)模型和訓(xùn)練:Grok-1是基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練的,并未針對(duì)任何特定任務(wù)進(jìn)行微調(diào),意味著它是一個(gè)通用語言模型,適用于多種自然語言處理任務(wù)。它的訓(xùn)練使用了JAX庫和Rust語言構(gòu)建的定制訓(xùn)練堆棧。
- 參數(shù)數(shù)量:Grok-1擁有3140億個(gè)參數(shù),是目前參數(shù)量最大的開源大語言模型。每個(gè)token的激活權(quán)重為25%,展示了模型的規(guī)模與復(fù)雜性。
- 混合專家模型(MoE):Grok-1采用混合專家系統(tǒng)設(shè)計(jì),將多個(gè)專家網(wǎng)絡(luò)結(jié)合,提高了模型的效率與性能。在Grok-1中,每個(gè)token會(huì)從8個(gè)專家中選擇2個(gè)進(jìn)行處理。
- 激活參數(shù):Grok-1的激活參數(shù)數(shù)量達(dá)到860億,遠(yuǎn)超Llama-2的70B參數(shù),顯示出其在語言任務(wù)處理上的潛力。
- 嵌入和位置嵌入:Grok-1使用旋轉(zhuǎn)嵌入而非固定位置嵌入,這種方法增強(qiáng)了模型處理長文本的能力。其Tokenizer詞匯量為131,072,類似于GPT-4,嵌入大小為6,144。
- Transformer層:該模型包含64個(gè)Transformer層,每層由多頭注意力塊和密集塊組成。多頭注意力塊有48個(gè)用于查詢的頭,8個(gè)用于鍵/值(KV),KV大小為128。密集塊的加寬因子為8,隱藏層大小為32,768。
- 量化:Grok-1還提供部分權(quán)重的8bit量化,減少了模型的存儲(chǔ)和計(jì)算需求,使其更適合在資源有限的環(huán)境中運(yùn)行。
- 運(yùn)行要求:由于Grok-1是一個(gè)超大規(guī)模模型(314B參數(shù)),需要具備足夠GPU內(nèi)存的機(jī)器才能運(yùn)行。估計(jì)需要一臺(tái)擁有628GB GPU內(nèi)存的機(jī)器(每個(gè)參數(shù)2字節(jié))。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...