AIGC動態歡迎閱讀
原標題:大模型訓練之序列并行雙雄:DeepSpeed Ulysses和Ring-Attention
關鍵字:騰訊,侵權,解讀,知乎,切分
文章來源:算法邦
內容字數:0字
內容摘要:
導讀本文來自知乎,作者為騰訊專家工程師方佳瑞。本文只做學術/技術分享,如有侵權,聯系刪文。
本文對比兩種目前炙手可熱長文本訓練方法 DeepSpeed Ulysess [1] 和 Ring-Attention [2]。2023 年末,二者幾乎同時出現,但是設計方法大相徑庭,可謂一時瑜亮。
原文鏈接:https://zhuanlan.zhihu.com/p/689067888隨著 Gemini 1M context length 和 Sora 出世,如何訓練超長上下文的大模型引起了大家廣泛關注。
本文對比兩種目前炙手可熱長文本訓練方法 DeepSpeed Ulysess [1]和 Ring-Attention [2]。2023 年末,二者幾乎同時出現,但是設計方法大相徑庭,可謂一時瑜亮。
DeepSpeed Ulysess:切分 Q、K、V 序列維度,核心賣點保持通信復雜度低,和 GPU 數無關,和序列長度呈線性關系。
Ring-Attention:切分 Q、K、V 序列維度,核心賣點是通信和計算重疊。
下面,我用 FlashAttention Style 的示意圖來對比二者區別。圖中
原文鏈接:大模型訓練之序列并行雙雄:DeepSpeed Ulysses和Ring-Attention
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...