字節(jié)豆包大模型團(tuán)隊(duì)突破殘差連接局限!預(yù)訓(xùn)練收斂最快加速80%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:字節(jié)豆包大模型團(tuán)隊(duì)突破殘差連接局限!預(yù)訓(xùn)練收斂最快加速80%
關(guān)鍵字:矩陣,模型,解讀,字節(jié)跳動(dòng),動(dòng)態(tài)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心發(fā)布
機(jī)器之心編輯部字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)于近日提出超連接(Hyper-Connections),一種簡單有效的殘差連接替代方案。面向殘差連接的主要變體的局限問題,超連接可通過動(dòng)態(tài)調(diào)整不同層之間的連接權(quán)重,解決梯度消失和表示崩潰(Representation Collapse)之間的權(quán)衡困境。在 Dense 模型和 MoE 模型預(yù)訓(xùn)練中,超連接方案展示出顯著的性能提升效果,使收斂速度最高可加速 80%。自從 ResNet 提出后,殘差連接已成為深度學(xué)習(xí)模型的基礎(chǔ)組成部分。其主要作用是 —— 緩解梯度消失問題,使得網(wǎng)絡(luò)的訓(xùn)練更加穩(wěn)定。
但是,現(xiàn)有殘差連接變體在梯度消失和表示崩潰之間存在一種 “蹺蹺板式” 的權(quán)衡,無法同時(shí)解決。
為此,字節(jié)豆包大模型 Foundation 團(tuán)隊(duì)于近日提出超連接(Hyper-Connections),針對(duì)上述 “蹺蹺板式” 困境,實(shí)現(xiàn)了顯著提升。
該方法適用于大規(guī)模語言模型(LLMs)的預(yù)訓(xùn)練,在面向 Dense 模型和 MoE 模型的實(shí)驗(yàn)中,展示了顯著性能提升效果,使預(yù)訓(xùn)練收斂速度最高可加速 80%。研究團(tuán)隊(duì)還發(fā)現(xiàn),超連接在兩個(gè)小型的視覺任務(wù)中表現(xiàn)
原文鏈接:字節(jié)豆包大模型團(tuán)隊(duì)突破殘差連接局限!預(yù)訓(xùn)練收斂最快加速80%
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: