一條磁力鏈爆全網，Mixtral 8x7B論文來了！碾壓Llama 2 70B，每token僅需激活13B參數

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：一條磁力鏈爆全網，Mixtral 8x7B論文來了！碾壓Llama 2 70B，每token僅需激活13B參數
關鍵字：模型,專家,研究人員,樣本,報告
文章來源：新智元
內容字數：9053字

內容摘要：

新智元報道編輯：桃子好困
【新智元導讀】爆火社區的Mixtral 8x7B模型，今天終于放出了arXiv論文！所有模型細節全部公開了。還記得一個月前，Mistral AI突然公布的一條磁力鏈接，引爆了整個AI社區。
緊接著，Mixtral 8x7B的技術細節隨之公布，其表現不僅優于Llama 2 70B，而且推理速度提高了整整6倍。
甚至，它在大多數標準基準測試上與GPT-3.5打平，甚至略勝一籌。
今天，這家法國初創正式發布了Mixtral 8x7B混合專家模型（Mixtral of Experts）的論文。
論文地址：https://arxiv.org/abs/2401.04088
網友紛紛表示，最好的開源模型論文終于發布了。
具體技術細節，我們一探究竟。
架構Mixtral是一個稀疏的混合專家網絡，而且是一個純解碼器模型。其中前饋塊從一組8個不同的參數組中進行選擇。
在每一層，對于每個token，路由網絡都會選擇其中的兩個組「專家」來處理token，并將它們的輸出相加。
這項技術不僅增加了模型的參數數量，而且控制了成本和延遲，因為模型每處理一個token只會使用部分參數。
具

原文鏈接：一條磁力鏈爆全網，Mixtral 8x7B論文來了！碾壓Llama 2 70B，每token僅需激活13B參數