AIGC動態歡迎閱讀
原標題:顯存瓶頸被打破!大模型訓練的黑科技來了,帶寬不再制約大模型訓練
關鍵字:模型,參數,張量,顯存,數據
文章來源:夕小瑤科技說
內容字數:11916字
內容摘要:
夕小瑤科技說 原創作者 | 賣萌醬
大家好,我是賣萌醬。
來一個快問快答,如何使用性能有限的GPU卡從頭訓練出一個ChatGPT?
在目前,隨著模型參數量不斷暴漲,大家對算力的要求也水漲船高。對比GPT-3當年使用了10000塊GPU,花了30天訓練了1750億參數,現實條件下我們一沒法組織起無限算力,二來手里的計算卡硬件設備還可能差異很大,顯存、帶寬水平參差不齊,在卡不多條件又比較艱苦的背景下,我們該如何進行高效的大模型訓練呢?
我們在這篇論文中找到了答案。
論文標題:YUAN 2.0: A Large Language Model with Localized Filtering-based Attention
論文鏈接:https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf
項目地址:https://github.com/IEIT-Yuan/Yuan-2.0
模型下載:https://huggingface.co/IEITYuan
在上個月,浪潮信息發布了千億級別的開源大模型源2.0,作為一個開源模型,源2.0在多個評測指標上
原文鏈接:顯存瓶頸被打破!大模型訓練的黑科技來了,帶寬不再制約大模型訓練
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...