新開源之王來了！1320億參數，邏輯數理全面打贏Grok，還比Llama2-70B快1倍

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：新開源之王來了！1320億參數，邏輯數理全面打贏Grok，還比Llama2-70B快1倍
關鍵字：騰訊,模型,團隊,基準,專家
文章來源：量子位
內容字數：3515字

內容摘要：

魚羊發(fā)自凹非寺量子位 | 公眾號 QbitAI“最強”開源大模型之爭，又有新王入局：
大數據巨頭Databricks，剛剛發(fā)布MoE大模型DBRX，并宣稱：
它在基準測試中擊敗了此前所有開源模型。
包括同為混合專家模型的Grok-1和Mixtral。
新王攪局，迅速引發(fā)了開源社區(qū)的熱議。
畢竟，僅從紙面數據來看，DBRX頗具特點：總參數量為1320億，但因為是混合專家模型，每次激活參數量僅為360億。
就是說，在總參數量接近Llama2-70B的2倍的情況下，DBRX的生成速度也比Llama2-70B快1倍。
△DBRX vs Llama2-70B另外，DBRX是在12T token上從頭訓練的，訓練數據量是Llama2的6倍，遠高于Chinchilla定律推薦量。
網友們的第一反應be like：
首席科學家：打賭輸了就把頭發(fā)染藍來看DBRX的具體細節(jié)。
DBRX由16個專家模型組成，每次訓練推理會有4個專家處于激活狀態(tài)。其上下文長度為32K。
為了訓練DBRX，Databricks團隊從云廠商那里租用了3072個H100。
一個細節(jié)是，團隊向Wired透露，經過兩個月的訓練之后

原文鏈接：新開源之王來了！1320億參數，邏輯數理全面打贏Grok，還比Llama2-70B快1倍