AIGC動態歡迎閱讀
原標題:一條磁力鏈爆全網,Mixtral 8x7B論文來了!碾壓Llama 2 70B,每token僅需激活13B參數
關鍵字:模型,專家,研究人員,樣本,報告
文章來源:新智元
內容字數:9053字
內容摘要:
新智元報道編輯:桃子 好困
【新智元導讀】爆火社區的Mixtral 8x7B模型,今天終于放出了arXiv論文!所有模型細節全部公開了。還記得一個月前,Mistral AI突然公布的一條磁力鏈接,引爆了整個AI社區。
緊接著,Mixtral 8x7B的技術細節隨之公布,其表現不僅優于Llama 2 70B,而且推理速度提高了整整6倍。
甚至,它在大多數標準基準測試上與GPT-3.5打平,甚至略勝一籌。
今天,這家法國初創正式發布了Mixtral 8x7B混合專家模型(Mixtral of Experts)的論文。
論文地址:https://arxiv.org/abs/2401.04088
網友紛紛表示,最好的開源模型論文終于發布了。
具體技術細節,我們一探究竟。
架構Mixtral是一個稀疏的混合專家網絡,而且是一個純解碼器模型。其中前饋塊從一組8個不同的參數組中進行選擇。
在每一層,對于每個token,路由網絡都會選擇其中的兩個組「專家」來處理token,并將它們的輸出相加。
這項技術不僅增加了模型的參數數量,而且控制了成本和延遲,因為模型每處理一個token只會使用部分參數。
具
原文鏈接:一條磁力鏈爆全網,Mixtral 8x7B論文來了!碾壓Llama 2 70B,每token僅需激活13B參數
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。