Flash Attention穩定嗎？Meta、哈佛發現其模型權重偏差呈現數量級波動

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：Flash Attention穩定嗎？Meta、哈佛發現其模型權重偏差呈現數量級波動
關鍵字：數值,偏差,模型,權重,研究者
文章來源：機器之心
內容字數：8577字

內容摘要：

機器之心報道
機器之心編輯部Meta FAIR 聯合哈佛優化大規模機器學習時產生的數據偏差，提供了新的研究框架。眾所周知，大語言模型的訓練常常需要數月的時間，使用數百乃至上千個 GPU。以 LLaMA2 70B 模型為例，其訓練總共需要 1,720,320 GPU hours。由于這些工作負載的規模和復雜性，導致訓練大模型存在著獨特的系統性挑戰。
最近，許多機構在訓練 SOTA 生成式 AI 模型時報告了訓練過程中的不穩定情況，它們通常以損失尖峰的形式出現，比如谷歌的 PaLM 模型訓練過程現了多達 20 次的損失尖峰。
數值偏差是造成這種訓練不穩定性的潛在原因，由于大語言模型訓練運行成本極高，如何量化數值偏差儼然成為關鍵問題。
在最新的一項工作中，來自 Meta、哈佛大學的研究者開發了一個定量方法來理解訓練優化中的數值偏差，以此評估不同的最新優化技術，并確定它們在用于訓練大模型時是否可能引入意外的不穩定性。論文標題：Is Flash Attention Stable？
論文鏈接：https://arxiv.org/pdf/2405.02803
結果發現，在一次單獨的前向傳遞

原文鏈接：Flash Attention穩定嗎？Meta、哈佛發現其模型權重偏差呈現數量級波動