<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        開源1.6B小模型「小狐貍」,表現(xiàn)超同類模型Qwen和Gemma

        AIGC動態(tài)5個月前發(fā)布 智猩猩GenAI
        584 0 0

        最近,世界模型(World Models)似乎成為了 AI 領(lǐng)域最熱門的研究方向。自從 Chatgpt 誕生以來,LLM(大語言模型)的參數(shù)量似乎就成為了各個公司的競賽指標(biāo)。GPT-1 參數(shù)量為 1.17 億(117M),而它的 GPT-4 參數(shù)量已經(jīng)刷新到了 1.8 萬億(1800B)。像其他 LLM 模型例如 Bloom(1760 億,176B)和 Chinchilla(700 億,70B)的參數(shù)量也在不斷飆升。參數(shù)的數(shù)量直接影響了模型的性能和能力,更多的參數(shù)意味著模型能夠處理更復(fù)雜的語言模式,理解更豐富的上下文信息,并在多種任務(wù)上表現(xiàn)出更高的智能水平。但是,這些巨量參數(shù)也會直接影響 LLM 的訓(xùn)練成本和開發(fā)環(huán)境,也限制了大多數(shù)普通研究公司對于 LLM 的探索,導(dǎo)致大語言模型逐漸成為了大公司之間的軍備競賽。近日,新興 AI 公司 TensorOpera 發(fā)布了開源小語言模型 FOX,向業(yè)內(nèi)證明了小語言模型(SLM)也可以在智能體領(lǐng)域展現(xiàn)足夠的實(shí)力。FOX 是一個專為云計(jì)算和邊緣計(jì)算設(shè)計(jì)的小型語言模型。與動輒上百億參數(shù)的大語言模型不同,F(xiàn)OX 僅有 16 億參數(shù),卻能在多項(xiàng)任務(wù)中展現(xiàn)出驚人的性能。論文題目:FOX-1 TECHNICAL REPORT論文鏈接:https://arxiv.org/abs/2411.0528101TensorOpera 是誰TensorOpera 是一家位于加州硅谷的創(chuàng)新人工智能公司。他們之前開發(fā)了 TensorOpera? AI Platform 生成型 AI 生態(tài)系統(tǒng)和 TensorOpera? FedML 聯(lián)邦學(xué)習(xí)和分析平臺。公司名稱 TensorOpera, 是技術(shù)和藝術(shù)的結(jié)合,象征著 GenAI 最終實(shí)現(xiàn)多模態(tài)和多模型復(fù)合 AI 系統(tǒng)的發(fā)展趨。TensorOpera 的聯(lián)合創(chuàng)始人兼 CEO Jared Kaplan 博士表示:”FOX 模型的設(shè)計(jì)初衷是為了在保持高性能的同時,大幅降低計(jì)算資源需求。這不僅讓 AI 技術(shù)更加親民,也為企業(yè)降低了使用門檻。”02Fox 模型是怎么做的為了通過較小的參數(shù)量達(dá)到與 LLM 相同的效果,F(xiàn)ox-1 模型僅采用解碼器架構(gòu),并引入了各種改進(jìn)和重新設(shè)計(jì)以獲得更好的性能。其包括① 網(wǎng)絡(luò)層數(shù):在模型架構(gòu)設(shè)計(jì)中,更寬且更淺的神經(jīng)網(wǎng)絡(luò)擁有更好的記憶能力,而更深且更瘦的網(wǎng)絡(luò)則呈現(xiàn)出更強(qiáng)的推理能力。根據(jù)這一原則,F(xiàn)ox-1 使用的架構(gòu)比大多數(shù)現(xiàn)代 SLMs 更深。具體來說,F(xiàn)ox-1 由 32 個自注意力層組成,比 Gemma-2B(18 層)深 78%,比 StableLM-2-1.6B(24 層)和 Qwen1.5-1.8B(24 層)深 33%。② 共享嵌入:Fox-1 采用 2,048 的隱藏維度去構(gòu)建共計(jì) 256,000 的詞匯表,其數(shù)據(jù)量大約有 5 億參數(shù)。更大的模型通常對輸入層(詞匯表到嵌入表達(dá))和輸出層(嵌入表達(dá)到詞匯表)使用單獨(dú)的嵌入層。對于 Fox-1,僅嵌入層就需要 10 億參數(shù)。為了減少總參數(shù)數(shù)量,共享輸入和輸出嵌入層,可以最大限度地提高權(quán)重利用率。③ 預(yù)歸一化:Fox-1 對每個變換層的輸入使用 RMSNorm 進(jìn)行歸一化。RMSNorm 是現(xiàn)代大型語言模型中預(yù)歸一化的首選,它比 LayerNorm 表現(xiàn)出更好的效率。④ 旋轉(zhuǎn)式位置編碼(RoPE):Fox-1 默認(rèn)接受最多 8K 長度的 input token。為了提高更長上下文窗口的性能,F(xiàn)ox-1 采用了旋轉(zhuǎn)式位置編碼,其中 θ 設(shè)置為 10,000,以便于編碼 token 之間的相對位置依賴性。⑤ 分組查詢注意力(GQA):分組查詢注意力將多頭注意力層的查詢頭分為組,每個組共享相同的一組鍵值頭。Fox-1 配備 4 個鍵值頭和 16 個注意力頭,以提高訓(xùn)練和推理速度,并減少內(nèi)存使用。除了模型結(jié)構(gòu)改良之外,F(xiàn)OX-1 也在分詞(Tokenization)和訓(xùn)練上進(jìn)行改進(jìn)。分詞方面,F(xiàn)ox-1 采用基于 SentencePiece 的 Gemma 分詞器,它提供了 256K 的詞匯表大小。增加詞匯表大小至少有兩個主要好處。首先,由于每個 token 編碼了更密集的信息,上下文的隱藏信息長度得以延長。例如,大小為 26 的詞匯表只能在[a-z]中編碼一個字符,但大小為 262 的詞匯表可以同時編碼兩個字母,這使得在固定長度的 token 中可以表示更長的字符串。其次,更大的詞匯表大小減少了未知單詞或短語的概率,從而在實(shí)踐中實(shí)現(xiàn)了更好的下游任務(wù)性能。Fox-1 采用的大詞匯表對于給定的文本語料庫產(chǎn)生較少的 token,這可以產(chǎn)生更好的推理性能。Fox-1 的預(yù)訓(xùn)練數(shù)據(jù)來源于 Redpajama、SlimPajama、Dolma、Pile 和 Falcon 數(shù)據(jù)集,共計(jì) 3 萬億個文本數(shù)據(jù)。為了緩解因其注意力機(jī)制導(dǎo)致的長序列的預(yù)訓(xùn)練效率低下,F(xiàn)ox-1 在預(yù)訓(xùn)練階段引入了一個三階段的課程學(xué)習(xí)策略,其中訓(xùn)練樣本的 chunk 長度逐漸從 2K 增加到 8K,以小成本確保長上下文能力。為了與三階段課程預(yù)訓(xùn)練管道保持一致,F(xiàn)ox-1 將原始數(shù)據(jù)重新組織成三個不同的集合,包括無監(jiān)督和指令調(diào)優(yōu)數(shù)據(jù)集,以及代碼、網(wǎng)絡(luò)內(nèi)容、數(shù)學(xué)和科學(xué)文檔等不同領(lǐng)域的數(shù)據(jù)。Fox-1 的訓(xùn)練可以分為三個階段。第一階段包括整個預(yù)訓(xùn)練過程中約 39% 的總數(shù)據(jù)樣本,其中 1.05 萬億 token 的數(shù)據(jù)集被分割成長度為 2,000 的樣本,batch size 大小為 2M。在此階段使用了 2,000epoch 的線性預(yù)熱。第二階段包括約 59% 的樣本,有 1.58 萬億 token,并將 chunk 長度從 2K 增加到 4K 和 8K。實(shí)際的 chunk 長度因不同數(shù)據(jù)源而異。考慮到第二階段花費(fèi)的時間最長,且涉及不同數(shù)據(jù)集的不同來源,batch size 也增加到 4M 以提高訓(xùn)練效率。最后在第三階段,F(xiàn)ox 模型使用 62 億 token(約總量的 0.02%)的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,為不同的下游任務(wù)能力打下基礎(chǔ),如指令遵循、閑聊、特定領(lǐng)域的問答等。03Fox-1 表現(xiàn)如何和其他 SLM 模型(Gemma-2B, Qwen1.5-1.8B, StableLM-2-1.6B 和 OpenELM1.1B)相比,F(xiàn)OX-1 在 ARC Challenge (25-shot), HellaSwag (10-shot), TruthfulQA(0-shot),MMLU (5-shot),Winogrande (5-shot),GSM8k (5-shot)六項(xiàng)任務(wù)的 benchmark 的平均分?jǐn)?shù)最高,且在 GSM8k 上優(yōu)勢明顯。除此之外,TensorOpera 還評估了 Fox-1、Qwen1.5-1.8B 和 Gemma-2B 使用 vLLM 與 TensorOpera 服務(wù)平臺在單個 NVIDIA H100 上的端到端的推理效率。Fox-1 實(shí)現(xiàn)了每秒超過 200 個 token 的吞吐量,超過了 Gemma-2B,并在相同的部署環(huán)境中與 Qwen1.5-1.8B 相匹配。在 BF16 精度下,F(xiàn)ox-1 僅需要 3703MiB 的 GPU 內(nèi)存,而 Qwen1.5-1.8B、StableLM-2-1.6B 和 Gemma-2B 分別需要 4739MiB、3852MiB 和 5379MiB。04參數(shù)雖小,依舊有競爭力目前各家 AI 公司都在大語言模型上開展競爭,而 TensorOpera 另辟蹊徑,在 SLM 領(lǐng)域進(jìn)行突破,僅用 1.6B 實(shí)現(xiàn)了與 LLM 相似的效果,在各種基準(zhǔn)測試中表現(xiàn)出色。即使在有限的數(shù)據(jù)資源下,TensorOpera 也可以預(yù)訓(xùn)練出具有競爭力表現(xiàn)的語言模型,為其他 AI 公司的研發(fā)提供了一種新思路。END點(diǎn)擊下方名片即刻關(guān)注我們

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日韩精品无码区免费专区| 亚洲不卡av不卡一区二区| 99爱免费观看视频在线| 亚洲精品无码aⅴ中文字幕蜜桃| 亚洲AV无码乱码在线观看牲色| 30岁的女人韩剧免费观看| 一级毛片免费视频网站| 亚洲免费视频播放| 国产精品亚洲аv无码播放| 国产无遮挡裸体免费视频 | 皇色在线视频免费网站| 一个人看的www在线免费视频 | 成人特级毛片69免费观看| 亚洲国产人成在线观看| 亚洲AV无码国产精品色午友在线| 免费一级毛片女人图片| 成年人在线免费看视频| 免费观看激色视频网站(性色)| 久久久久免费精品国产小说| 国产免费久久精品丫丫| 国产免费卡一卡三卡乱码| 久久久久久久久久久免费精品| 亚洲av日韩aⅴ无码色老头| 亚洲丝袜中文字幕| 亚洲网站在线播放| 亚洲人成亚洲精品| 久久亚洲AV无码精品色午夜麻| 亚洲中文字幕久久精品无码APP| 免费看国产一级片| 国产高清在线免费| 国产在线不卡免费播放| 日韩高清免费在线观看| 在线免费观看污网站| 在线观看肉片AV网站免费| 国产精品成人免费观看| 四虎精品免费永久免费视频| 搜日本一区二区三区免费高清视频| 老牛精品亚洲成av人片| 美女又黄又免费的视频| 亚洲国产成人久久精品app| 亚洲视频在线观看免费视频|