單個(gè)4090可推理,2000億稀疏大模型「天工MoE」開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:單個(gè)4090可推理,2000億稀疏大模型「天工MoE」開源
關(guān)鍵字:報(bào)告,模型,切分,參數(shù),天工
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心發(fā)布
機(jī)器之心編輯部在大模型浪潮中,訓(xùn)練和部署最先進(jìn)的密集 LLM 在計(jì)算需求和相關(guān)成本上帶來了巨大挑戰(zhàn),尤其是在數(shù)百億或數(shù)千億參數(shù)的規(guī)模上。為了應(yīng)對(duì)這些挑戰(zhàn),稀疏模型,如專家混合模型(MoE),已經(jīng)變得越來越重要。這些模型通過將計(jì)算分配給各種專門的子模型或「專家」,提供了一種經(jīng)濟(jì)上更可行的替代方案,有可能以極低的資源需求達(dá)到甚至超過密集型模型的性能。
6 月 3 日,開源大模型領(lǐng)域又傳來重要消息:昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE,在保持性能強(qiáng)勁的同時(shí),大幅降低了推理成本。
Skywork-MoE 基于此前昆侖萬維開源的 Skywork-13B 模型中間 checkpoint 擴(kuò)展而來,是首個(gè)完整將 MoE Upcycling 技術(shù)應(yīng)用并落地的開源千億 MoE 大模型,也是首個(gè)支持用單臺(tái) 4090 服務(wù)器推理的開源千億 MoE 大模型。
讓大模型社區(qū)更為關(guān)注的是,Skywork-MoE 的模型權(quán)重、技術(shù)報(bào)告完全開源,免費(fèi)商用,無需申請(qǐng)。
模型權(quán)重下載地址:
? https://huggingface.co/Skywork/Skywork-MoE-ba
原文鏈接:單個(gè)4090可推理,2000億稀疏大模型「天工MoE」開源
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)