AIGC動態歡迎閱讀
原標題:字節豆包大模型團隊突破殘差連接局限!預訓練收斂最快加速80%
關鍵字:矩陣,模型,解讀,字節跳動,動態
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心發布
機器之心編輯部字節跳動豆包大模型團隊于近日提出超連接(Hyper-Connections),一種簡單有效的殘差連接替代方案。面向殘差連接的主要變體的局限問題,超連接可通過動態調整不同層之間的連接權重,解決梯度消失和表示崩潰(Representation Collapse)之間的權衡困境。在 Dense 模型和 MoE 模型預訓練中,超連接方案展示出顯著的性能提升效果,使收斂速度最高可加速 80%。自從 ResNet 提出后,殘差連接已成為深度學習模型的基礎組成部分。其主要作用是 —— 緩解梯度消失問題,使得網絡的訓練更加穩定。
但是,現有殘差連接變體在梯度消失和表示崩潰之間存在一種 “蹺蹺板式” 的權衡,無法同時解決。
為此,字節豆包大模型 Foundation 團隊于近日提出超連接(Hyper-Connections),針對上述 “蹺蹺板式” 困境,實現了顯著提升。
該方法適用于大規模語言模型(LLMs)的預訓練,在面向 Dense 模型和 MoE 模型的實驗中,展示了顯著性能提升效果,使預訓練收斂速度最高可加速 80%。研究團隊還發現,超連接在兩個小型的視覺任務中表現
原文鏈接:字節豆包大模型團隊突破殘差連接局限!預訓練收斂最快加速80%
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...