AIGC動態歡迎閱讀
原標題:10萬美元訓出Llama-2級大模型!全華人打造新型MoE,賈揚清SD前CEO圍觀
關鍵字:模型,數據,嘉賓,峰會,博士
文章來源:量子位
內容字數:3602字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI“只需”10萬美元,訓練Llama-2級別的大模型。
尺寸更小但性能不減的MoE模型來了:
它叫JetMoE,來自MIT、普林斯頓等研究機構。
性能妥妥超過同等規模的Llama-2。
△賈揚清轉發要知道,后者可是數十億美元級別的投入成本。
JetMoE發布即完全開源,且學術界友好:僅使用公開數據集和開源代碼,用消費級GPU就能進行微調。
不得說,大模型的打造成本,真的比人們想的要便宜更多了。
Ps. Stable Diffusion前老板Emad也點了贊:
10萬美刀實現Llama-2性能JetMoE啟發于ModuleFormer的稀疏激活架構。
(ModuleFormer,一種基于稀疏專家混合(SMoE)的模塊化架構,可提高大模型效率和靈活性,去年6月提出)
它的注意力層中仍然使用了MoE:
80億參數的JetMoE一共有24個區塊,每塊包含2個MoE層,分別是注意力頭混合 (MoA) 和MLP專家混合 (MoE)。
每個MoA和MoE層又有8個專家,每次輸入token激活2個。
JetMoE-8B使用公開數據集中的1.25T tok
原文鏈接:10萬美元訓出Llama-2級大模型!全華人打造新型MoE,賈揚清SD前CEO圍觀
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...