字節(jié)豆包大模型團(tuán)隊(duì)突破殘差連接局限！預(yù)訓(xùn)練收斂最快加速80%

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：字節(jié)豆包大模型團(tuán)隊(duì)突破殘差連接局限！預(yù)訓(xùn)練收斂最快加速80%
關(guān)鍵字：矩陣,模型,解讀,字節(jié)跳動(dòng),動(dòng)態(tài)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心發(fā)布
機(jī)器之心編輯部字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)于近日提出超連接（Hyper-Connections），一種簡單有效的殘差連接替代方案。面向殘差連接的主要變體的局限問題，超連接可通過動(dòng)態(tài)調(diào)整不同層之間的連接權(quán)重，解決梯度消失和表示崩潰（Representation Collapse）之間的權(quán)衡困境。在 Dense 模型和 MoE 模型預(yù)訓(xùn)練中，超連接方案展示出顯著的性能提升效果，使收斂速度最高可加速 80%。自從 ResNet 提出后，殘差連接已成為深度學(xué)習(xí)模型的基礎(chǔ)組成部分。其主要作用是 —— 緩解梯度消失問題，使得網(wǎng)絡(luò)的訓(xùn)練更加穩(wěn)定。
但是，現(xiàn)有殘差連接變體在梯度消失和表示崩潰之間存在一種 “蹺蹺板式” 的權(quán)衡，無法同時(shí)解決。
為此，字節(jié)豆包大模型 Foundation 團(tuán)隊(duì)于近日提出超連接（Hyper-Connections），針對(duì)上述 “蹺蹺板式” 困境，實(shí)現(xiàn)了顯著提升。
該方法適用于大規(guī)模語言模型（LLMs）的預(yù)訓(xùn)練，在面向 Dense 模型和 MoE 模型的實(shí)驗(yàn)中，展示了顯著性能提升效果，使預(yù)訓(xùn)練收斂速度最高可加速 80%。研究團(tuán)隊(duì)還發(fā)現(xiàn)，超連接在兩個(gè)小型的視覺任務(wù)中表現(xiàn)

原文鏈接：字節(jié)豆包大模型團(tuán)隊(duì)突破殘差連接局限！預(yù)訓(xùn)練收斂最快加速80%