AIGC動態歡迎閱讀
原標題:全球最大開源模型再刷爆紀錄!4800億參數MoE擊敗Llama 3、Mixtral
關鍵字:模型,團隊,參數,企業,專家
文章來源:新智元
內容字數:10325字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】最大開源模型,再次刷爆紀錄!Snowflake的Arctic,以128位專家和4800億參數,成為迄今最大的開源模型。它的特點,是又大又稀疏,因此計算資源只用了不到Llama 3 8B的一半,就達到了相同的性能指標。就在剛剛,擁有128位專家和4800億參數的Arctic,成功登上了迄今最大開源MoE模型的寶座。
它基于全新的Dense-MoE架構設計,由一個10B的稠密Tranformer模型和128×3.66B的MoE MLP組成,并在3.5萬億個token上進行了訓練。
不僅如此,作為一個比「開源」更「開源」的模型,團隊甚至把訓練數據的處理方法也全給公開了。
Arctic的的兩個特點,一個是大,另一個就是非常稀疏。
好處就在于,這種架構讓你可以用比別人少好幾倍的訓練開銷,就能得到性能差不多的模型。
也就是說,與其他使用類似計算預算訓練的開源模型相比,Arctic的性能更加優異。
比起Llama 3 8B和Llama 2 70B,Arctic所用的訓練計算資源不到它們的一半,評估指標卻取得了相當的分數!
圖1 編碼(HumanEval+和MB
原文鏈接:全球最大開源模型再刷爆紀錄!4800億參數MoE擊敗Llama 3、Mixtral
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...