谷歌更新Transformer架構，更節省計算資源！50%性能提升

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：谷歌更新Transformer架構，更節省計算資源！50%性能提升
關鍵字：模型,基線,更多,資源,方法
文章來源：量子位
內容字數：4091字

內容摘要：

明敏發自凹非寺量子位 | 公眾號 QbitAI谷歌終于更新了Transformer架構。
最新發布的Mixture-of-Depths（MoD），改變了以往Transformer計算模式。
它通過動態分配大模型中的計算資源，跳過一些不必要計算，顯著提高訓練效率和推理速度。
結果顯示，在等效計算量和訓練時間上，MoD每次向前傳播所需的計算量更小，而且后訓練采樣過程中步進速度提高50%。
這一方法剛剛發布，就馬上引發關注。
MoE風頭正盛，MoD已經來后浪拍前浪了？
還有人開始“算賬”：
聽說GPT-4 Turbo在Blackwell上提速30倍，再加上這個方法和其他各種加速，下一代生成模型可以走多遠？
所以MoD如何實現？
迫使大模型關注真正重要信息這項研究提出，現在的大模型訓練和推理中，有很多計算是沒必要的。
比如預測下一個句子很難，但是預測句子結束的標點符號很簡單。如果給它們分配同樣的計算資源，那么后者明顯浪費了。
在理想情況下，模型應該只給需要準確預測的token分配更多計算資源。
所以研究人員提出了MoD。
它在輸入序列中的特定位置動態分配FLOPs（運算次數或計算資源），

原文鏈接：谷歌更新Transformer架構，更節省計算資源！50%性能提升

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 基線 # 方法 # 更多 # 模型 # 資源

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

谷歌更新Transformer架構，更節省計算資源！50%性能提升

AIGC動態歡迎閱讀

內容摘要：

聯系作者

讓智能體像孩子一樣觀察別人學習動作，跨視角技能學習數據集EgoExoLearn來了

GPT-5紅隊測試郵件曝光，最早6月發布？網友在線逼問Altman，數十億美元超算26年啟動

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

谷歌更新Transformer架構，更節省計算資源！50%性能提升

AIGC動態歡迎閱讀

內容摘要：

聯系作者

讓智能體像孩子一樣觀察別人學習動作，跨視角技能學習數據集EgoExoLearn來了

GPT-5紅隊測試郵件曝光，最早6月發布？網友在線逼問Altman，數十億美元超算26年啟動

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

谷歌更新Transformer架構，更節省計算資源！50%性能提升

讓智能體像孩子一樣觀察別人學習動作，跨視角技能學習數據集EgoExoLearn來了

GPT-5紅隊測試郵件曝光，最早6月發布？網友在線逼問Altman，數十億美元超算26年啟動