大模型訓練之序列并行雙雄：DeepSpeed Ulysses和Ring-Attention

AIGC動態1年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：大模型訓練之序列并行雙雄：DeepSpeed Ulysses和Ring-Attention
關鍵字：騰訊,侵權,解讀,知乎,切分
文章來源：算法邦
內容字數：0字

內容摘要：

導讀本文來自知乎，作者為騰訊專家工程師方佳瑞。本文只做學術/技術分享，如有侵權，聯系刪文。
本文對比兩種目前炙手可熱長文本訓練方法 DeepSpeed Ulysess [1] 和 Ring-Attention [2]。2023 年末，二者幾乎同時出現，但是設計方法大相徑庭，可謂一時瑜亮。
原文鏈接：https://zhuanlan.zhihu.com/p/689067888隨著 Gemini 1M context length 和 Sora 出世，如何訓練超長上下文的大模型引起了大家廣泛關注。
本文對比兩種目前炙手可熱長文本訓練方法 DeepSpeed Ulysess [1]和 Ring-Attention [2]。2023 年末，二者幾乎同時出現，但是設計方法大相徑庭，可謂一時瑜亮。
DeepSpeed Ulysess：切分 Q、K、V 序列維度，核心賣點保持通信復雜度低，和 GPU 數無關，和序列長度呈線性關系。
Ring-Attention：切分 Q、K、V 序列維度，核心賣點是通信和計算重疊。
下面，我用 FlashAttention Style 的示意圖來對比二者區別。圖中

原文鏈接：大模型訓練之序列并行雙雄：DeepSpeed Ulysses和Ring-Attention