開源1.6B小模型「小狐貍」，表現(xiàn)超同類模型Qwen和Gemma

最近，世界模型（World Models）似乎成為了 AI 領(lǐng)域最熱門的研究方向。自從 Chatgpt 誕生以來，LLM（大語言模型）的參數(shù)量似乎就成為了各個公司的競賽指標(biāo)。GPT-1 參數(shù)量為 1.17 億（117M），而它的 GPT-4 參數(shù)量已經(jīng)刷新到了 1.8 萬億（1800B）。像其他 LLM 模型例如 Bloom(1760 億，176B)和 Chinchilla（700 億，70B）的參數(shù)量也在不斷飆升。參數(shù)的數(shù)量直接影響了模型的性能和能力，更多的參數(shù)意味著模型能夠處理更復(fù)雜的語言模式，理解更豐富的上下文信息，并在多種任務(wù)上表現(xiàn)出更高的智能水平。但是，這些巨量參數(shù)也會直接影響 LLM 的訓(xùn)練成本和開發(fā)環(huán)境，也限制了大多數(shù)普通研究公司對于 LLM 的探索，導(dǎo)致大語言模型逐漸成為了大公司之間的軍備競賽。近日，新興 AI 公司 TensorOpera 發(fā)布了開源小語言模型 FOX，向業(yè)內(nèi)證明了小語言模型（SLM）也可以在智能體領(lǐng)域展現(xiàn)足夠的實(shí)力。FOX 是一個專為云計(jì)算和邊緣計(jì)算設(shè)計(jì)的小型語言模型。與動輒上百億參數(shù)的大語言模型不同，F(xiàn)OX 僅有 16 億參數(shù)，卻能在多項(xiàng)任務(wù)中展現(xiàn)出驚人的性能。論文題目：FOX-1 TECHNICAL REPORT論文鏈接：https://arxiv.org/abs/2411.0528101TensorOpera 是誰TensorOpera 是一家位于加州硅谷的創(chuàng)新人工智能公司。他們之前開發(fā)了 TensorOpera? AI Platform 生成型 AI 生態(tài)系統(tǒng)和 TensorOpera? FedML 聯(lián)邦學(xué)習(xí)和分析平臺。公司名稱 TensorOpera，是技術(shù)和藝術(shù)的結(jié)合，象征著 GenAI 最終實(shí)現(xiàn)多模態(tài)和多模型復(fù)合 AI 系統(tǒng)的發(fā)展趨。TensorOpera 的聯(lián)合創(chuàng)始人兼 CEO Jared Kaplan 博士表示：”FOX 模型的設(shè)計(jì)初衷是為了在保持高性能的同時，大幅降低計(jì)算資源需求。這不僅讓 AI 技術(shù)更加親民，也為企業(yè)降低了使用門檻。”02Fox 模型是怎么做的為了通過較小的參數(shù)量達(dá)到與 LLM 相同的效果，F(xiàn)ox-1 模型僅采用解碼器架構(gòu)，并引入了各種改進(jìn)和重新設(shè)計(jì)以獲得更好的性能。其包括① 網(wǎng)絡(luò)層數(shù)：在模型架構(gòu)設(shè)計(jì)中，更寬且更淺的神經(jīng)網(wǎng)絡(luò)擁有更好的記憶能力，而更深且更瘦的網(wǎng)絡(luò)則呈現(xiàn)出更強(qiáng)的推理能力。根據(jù)這一原則，F(xiàn)ox-1 使用的架構(gòu)比大多數(shù)現(xiàn)代 SLMs 更深。具體來說，F(xiàn)ox-1 由 32 個自注意力層組成，比 Gemma-2B（18 層）深 78%，比 StableLM-2-1.6B（24 層）和 Qwen1.5-1.8B（24 層）深 33%。② 共享嵌入：Fox-1 采用 2，048 的隱藏維度去構(gòu)建共計(jì) 256，000 的詞匯表，其數(shù)據(jù)量大約有 5 億參數(shù)。更大的模型通常對輸入層（詞匯表到嵌入表達(dá)）和輸出層（嵌入表達(dá)到詞匯表）使用單獨(dú)的嵌入層。對于 Fox-1，僅嵌入層就需要 10 億參數(shù)。為了減少總參數(shù)數(shù)量，共享輸入和輸出嵌入層，可以最大限度地提高權(quán)重利用率。③ 預(yù)歸一化：Fox-1 對每個變換層的輸入使用 RMSNorm 進(jìn)行歸一化。RMSNorm 是現(xiàn)代大型語言模型中預(yù)歸一化的首選，它比 LayerNorm 表現(xiàn)出更好的效率。④ 旋轉(zhuǎn)式位置編碼（RoPE）：Fox-1 默認(rèn)接受最多 8K 長度的 input token。為了提高更長上下文窗口的性能，F(xiàn)ox-1 采用了旋轉(zhuǎn)式位置編碼，其中 θ 設(shè)置為 10，000，以便于編碼 token 之間的相對位置依賴性。⑤ 分組查詢注意力（GQA）：分組查詢注意力將多頭注意力層的查詢頭分為組，每個組共享相同的一組鍵值頭。Fox-1 配備 4 個鍵值頭和 16 個注意力頭，以提高訓(xùn)練和推理速度，并減少內(nèi)存使用。除了模型結(jié)構(gòu)改良之外，F(xiàn)OX-1 也在分詞（Tokenization）和訓(xùn)練上進(jìn)行改進(jìn)。分詞方面，F(xiàn)ox-1 采用基于 SentencePiece 的 Gemma 分詞器，它提供了 256K 的詞匯表大小。增加詞匯表大小至少有兩個主要好處。首先，由于每個 token 編碼了更密集的信息，上下文的隱藏信息長度得以延長。例如，大小為 26 的詞匯表只能在[a-z]中編碼一個字符，但大小為 262 的詞匯表可以同時編碼兩個字母，這使得在固定長度的 token 中可以表示更長的字符串。其次，更大的詞匯表大小減少了未知單詞或短語的概率，從而在實(shí)踐中實(shí)現(xiàn)了更好的下游任務(wù)性能。Fox-1 采用的大詞匯表對于給定的文本語料庫產(chǎn)生較少的 token，這可以產(chǎn)生更好的推理性能。Fox-1 的預(yù)訓(xùn)練數(shù)據(jù)來源于 Redpajama、SlimPajama、Dolma、Pile 和 Falcon 數(shù)據(jù)集，共計(jì) 3 萬億個文本數(shù)據(jù)。為了緩解因其注意力機(jī)制導(dǎo)致的長序列的預(yù)訓(xùn)練效率低下，F(xiàn)ox-1 在預(yù)訓(xùn)練階段引入了一個三階段的課程學(xué)習(xí)策略，其中訓(xùn)練樣本的 chunk 長度逐漸從 2K 增加到 8K，以小成本確保長上下文能力。為了與三階段課程預(yù)訓(xùn)練管道保持一致，F(xiàn)ox-1 將原始數(shù)據(jù)重新組織成三個不同的集合，包括無監(jiān)督和指令調(diào)優(yōu)數(shù)據(jù)集，以及代碼、網(wǎng)絡(luò)內(nèi)容、數(shù)學(xué)和科學(xué)文檔等不同領(lǐng)域的數(shù)據(jù)。Fox-1 的訓(xùn)練可以分為三個階段。第一階段包括整個預(yù)訓(xùn)練過程中約 39% 的總數(shù)據(jù)樣本，其中 1.05 萬億 token 的數(shù)據(jù)集被分割成長度為 2，000 的樣本，batch size 大小為 2M。在此階段使用了 2，000epoch 的線性預(yù)熱。第二階段包括約 59% 的樣本，有 1.58 萬億 token，并將 chunk 長度從 2K 增加到 4K 和 8K。實(shí)際的 chunk 長度因不同數(shù)據(jù)源而異。考慮到第二階段花費(fèi)的時間最長，且涉及不同數(shù)據(jù)集的不同來源，batch size 也增加到 4M 以提高訓(xùn)練效率。最后在第三階段，F(xiàn)ox 模型使用 62 億 token（約總量的 0.02%）的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練，為不同的下游任務(wù)能力打下基礎(chǔ)，如指令遵循、閑聊、特定領(lǐng)域的問答等。03Fox-1 表現(xiàn)如何和其他 SLM 模型(Gemma-2B， Qwen1.5-1.8B， StableLM-2-1.6B 和 OpenELM1.1B)相比，F(xiàn)OX-1 在 ARC Challenge (25-shot)， HellaSwag (10-shot)， TruthfulQA(0-shot)，MMLU (5-shot)，Winogrande (5-shot)，GSM8k (5-shot)六項(xiàng)任務(wù)的 benchmark 的平均分?jǐn)?shù)最高，且在 GSM8k 上優(yōu)勢明顯。除此之外，TensorOpera 還評估了 Fox-1、Qwen1.5-1.8B 和 Gemma-2B 使用 vLLM 與 TensorOpera 服務(wù)平臺在單個 NVIDIA H100 上的端到端的推理效率。Fox-1 實(shí)現(xiàn)了每秒超過 200 個 token 的吞吐量，超過了 Gemma-2B，并在相同的部署環(huán)境中與 Qwen1.5-1.8B 相匹配。在 BF16 精度下，F(xiàn)ox-1 僅需要 3703MiB 的 GPU 內(nèi)存，而 Qwen1.5-1.8B、StableLM-2-1.6B 和 Gemma-2B 分別需要 4739MiB、3852MiB 和 5379MiB。04參數(shù)雖小，依舊有競爭力目前各家 AI 公司都在大語言模型上開展競爭，而 TensorOpera 另辟蹊徑，在 SLM 領(lǐng)域進(jìn)行突破，僅用 1.6B 實(shí)現(xiàn)了與 LLM 相似的效果，在各種基準(zhǔn)測試中表現(xiàn)出色。即使在有限的數(shù)據(jù)資源下，TensorOpera 也可以預(yù)訓(xùn)練出具有競爭力表現(xiàn)的語言模型，為其他 AI 公司的研發(fā)提供了一種新思路。END點(diǎn)擊下方名片即刻關(guān)注我們

閱讀原文