騰訊混元又來(lái)開(kāi)源,一出手就是最大MoE大模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:騰訊混元又來(lái)開(kāi)源,一出手就是最大MoE大模型
關(guān)鍵字:騰訊,模型,數(shù)據(jù),專家,路由
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com隨著人工智能技術(shù)的快速發(fā)展,大型語(yǔ)言模型(LLMs)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和科學(xué)任務(wù)等領(lǐng)域取得了顯著進(jìn)展。然而,隨著模型規(guī)模的擴(kuò)大,如何在保持高性能的同時(shí)優(yōu)化資源消耗成為關(guān)鍵挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),騰訊混元團(tuán)隊(duì)率先采用混合專家(MoE)模型架構(gòu),最新發(fā)布的 Hunyuan-Large(Hunyuan-MoE-A52B)模型,是目前業(yè)界已經(jīng)開(kāi)源的基于 Transformer 的最大 MoE 模型,擁有 389B 總參數(shù)和 52B 激活參數(shù)。
本次騰訊混元 – Large 共計(jì)開(kāi)源三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct 和 Hunyuan-A52B-FP8,可支持企業(yè)及開(kāi)發(fā)者精調(diào)、部署等不同場(chǎng)景的使用需
原文鏈接:騰訊混元又來(lái)開(kāi)源,一出手就是最大MoE大模型
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: