時(shí)序大模型突破十億參數(shù)!新混合專家架構(gòu),普林斯頓格里菲斯等機(jī)構(gòu)出品

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:時(shí)序大模型突破十億參數(shù)!新混合專家架構(gòu),普林斯頓格里菲斯等機(jī)構(gòu)出品
關(guān)鍵字:模型,時(shí)序,序列,精度,數(shù)據(jù)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
TimeMoE團(tuán)隊(duì) 投稿自 凹非寺量子位 | 公眾號(hào) QbitAI時(shí)序大模型,參數(shù)規(guī)模突破十億級(jí)別。
來(lái)自全球多只華人研究團(tuán)隊(duì)提出了一種基于混合專家架構(gòu)(Mixture of Experts, MoE)的時(shí)間序列基礎(chǔ)模型——Time-MoE。
據(jù)了解,該模型首次將時(shí)間序列預(yù)訓(xùn)練大模型的參數(shù)規(guī)模推向十億級(jí)別。
Time-MoE模型通過(guò)MoE架構(gòu)的獨(dú)特優(yōu)勢(shì),將模型參數(shù)成功擴(kuò)展至24億,不僅顯著提升了預(yù)測(cè)精度,還在降低計(jì)算成本的同時(shí)超越了眾多現(xiàn)有模型,全面達(dá)到了SOTA(State of the Art)水平。
與此同時(shí),團(tuán)隊(duì)精心整理了預(yù)訓(xùn)練數(shù)據(jù)集Time-300B,這是目前時(shí)序領(lǐng)域最大的公開(kāi)數(shù)據(jù)集,為各類時(shí)序任務(wù)提供了通用解決方案。
十億參數(shù)時(shí)序大模型這篇文章主要有以下三點(diǎn)技術(shù)突破:
強(qiáng)大的混合專家架構(gòu):Time-MoE采用稀疏激活機(jī)制,在預(yù)測(cè)任務(wù)中僅激活部分網(wǎng)絡(luò)節(jié)點(diǎn),這不僅確保了高預(yù)測(cè)精度,還顯著降低了計(jì)算負(fù)擔(dān),完美解決了時(shí)序大模型在推理階段的計(jì)算瓶頸。
靈活的預(yù)測(cè)范圍:Time-MoE支持任意長(zhǎng)度的輸入和輸出范圍,能夠處理從短期到長(zhǎng)期的各種時(shí)序預(yù)測(cè)任務(wù),實(shí)現(xiàn)了真正的全域時(shí)序預(yù)測(cè)。
全球
原文鏈接:時(shí)序大模型突破十億參數(shù)!新混合專家架構(gòu),普林斯頓格里菲斯等機(jī)構(gòu)出品
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)