谷歌更新Transformer架構(gòu),更節(jié)省計(jì)算資源!50%性能提升

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:谷歌更新Transformer架構(gòu),更節(jié)省計(jì)算資源!50%性能提升
關(guān)鍵字:模型,基線,更多,資源,方法
文章來源:量子位
內(nèi)容字?jǐn)?shù):4091字
內(nèi)容摘要:
明敏 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI谷歌終于更新了Transformer架構(gòu)。
最新發(fā)布的Mixture-of-Depths(MoD),改變了以往Transformer計(jì)算模式。
它通過動(dòng)態(tài)分配大模型中的計(jì)算資源,跳過一些不必要計(jì)算,顯著提高訓(xùn)練效率和推理速度。
結(jié)果顯示,在等效計(jì)算量和訓(xùn)練時(shí)間上,MoD每次向前傳播所需的計(jì)算量更小,而且后訓(xùn)練采樣過程中步進(jìn)速度提高50%。
這一方法剛剛發(fā)布,就馬上引發(fā)關(guān)注。
MoE風(fēng)頭正盛,MoD已經(jīng)來后浪拍前浪了?
還有人開始“算賬”:
聽說GPT-4 Turbo在Blackwell上提速30倍,再加上這個(gè)方法和其他各種加速,下一代生成模型可以走多遠(yuǎn)?
所以MoD如何實(shí)現(xiàn)?
迫使大模型關(guān)注真正重要信息這項(xiàng)研究提出,現(xiàn)在的大模型訓(xùn)練和推理中,有很多計(jì)算是沒必要的。
比如預(yù)測(cè)下一個(gè)句子很難,但是預(yù)測(cè)句子結(jié)束的標(biāo)點(diǎn)符號(hào)很簡(jiǎn)單。如果給它們分配同樣的計(jì)算資源,那么后者明顯浪費(fèi)了。
在理想情況下, 模型應(yīng)該只給需要準(zhǔn)確預(yù)測(cè)的token分配更多計(jì)算資源。
所以研究人員提出了MoD。
它在輸入序列中的特定位置動(dòng)態(tài)分配FLOPs(運(yùn)算次數(shù)或計(jì)算資源),
原文鏈接:谷歌更新Transformer架構(gòu),更節(jié)省計(jì)算資源!50%性能提升
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)