AIGC動態歡迎閱讀
原標題:萬字干貨!手把手教你如何訓練超大規模集群下的大語言模型
關鍵字:通信,模型,快手,字節跳動,華為
文章來源:AI前線
內容字數:0字
內容摘要:
演講嘉賓 | 劉育良 AI 平臺大模型訓練負責人
審核|傅宇琪 褚杏娟
策劃 | 蔡芳芳
快手總結了一套超大規模集群下大語言模型訓練方案。該方案在超長文本場景下,在不改變模型表現的情況下,訓練效率相較 SOTA 開源方案,有顯著的吞吐提升。通過細致的建模,可保證 Performance Model 十分接近真實性能,基于此 Performance Model,解決了大模型訓練調參困難的問題。
本文整理自快手 AI 平臺大模型訓練負責人劉育良在 QCon 2024 北京的分享“超大規模集群下大語言模型訓練的最佳實踐”。演講結合在快手超算集群上的大模型訓練經驗,闡述大模型訓練在超大規模集群下遇到的挑戰和熱點問題的演變,以及對應的解決方案。同時,針對最具挑戰的超長文本場景,進行案例分析。最后,根據未來大模型的發展趨勢,對訓練領域的技術探索方向進行探討。
本文由 InfoQ 整理,經劉育良老師授權發布。以下為演講實錄。
簡單介紹一下背景,下圖清晰地描述從過去到現在,即 23 年之前所有主流大模型的發展歷程。從技術架構的角度來看,Transformer 架構無疑是當前大模型領域最主流的算法架構。
原文鏈接:萬字干貨!手把手教你如何訓練超大規模集群下的大語言模型
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...