AIGC動態歡迎閱讀
原標題:新開源之王來了!1320億參數,邏輯數理全面打贏Grok,還比Llama2-70B快1倍
關鍵字:騰訊,模型,團隊,基準,專家
文章來源:量子位
內容字數:3515字
內容摘要:
魚羊 發自 凹非寺量子位 | 公眾號 QbitAI“最強”開源大模型之爭,又有新王入局:
大數據巨頭Databricks,剛剛發布MoE大模型DBRX,并宣稱:
它在基準測試中擊敗了此前所有開源模型。
包括同為混合專家模型的Grok-1和Mixtral。
新王攪局,迅速引發了開源社區的熱議。
畢竟,僅從紙面數據來看,DBRX頗具特點:總參數量為1320億,但因為是混合專家模型,每次激活參數量僅為360億。
就是說,在總參數量接近Llama2-70B的2倍的情況下,DBRX的生成速度也比Llama2-70B快1倍。
△DBRX vs Llama2-70B另外,DBRX是在12T token上從頭訓練的,訓練數據量是Llama2的6倍,遠高于Chinchilla定律推薦量。
網友們的第一反應be like:
首席科學家:打賭輸了就把頭發染藍來看DBRX的具體細節。
DBRX由16個專家模型組成,每次訓練推理會有4個專家處于激活狀態。其上下文長度為32K。
為了訓練DBRX,Databricks團隊從云廠商那里租用了3072個H100。
一個細節是,團隊向Wired透露,經過兩個月的訓練之后
原文鏈接:新開源之王來了!1320億參數,邏輯數理全面打贏Grok,還比Llama2-70B快1倍
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...