顯存瓶頸被打破!大模型訓練的黑科技來了,帶寬不再制約大模型訓練
AIGC動態(tài)歡迎閱讀
原標題:顯存瓶頸被打破!大模型訓練的黑科技來了,帶寬不再制約大模型訓練
關(guān)鍵字:模型,參數(shù),張量,顯存,數(shù)據(jù)
文章來源:夕小瑤科技說
內(nèi)容字數(shù):11916字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 賣萌醬
大家好,我是賣萌醬。
來一個快問快答,如何使用性能有限的GPU卡從頭訓練出一個ChatGPT?
在目前,隨著模型參數(shù)量不斷暴漲,大家對算力的要求也水漲船高。對比GPT-3當年使用了10000塊GPU,花了30天訓練了1750億參數(shù),現(xiàn)實條件下我們一沒法組織起無限算力,二來手里的計算卡硬件設(shè)備還可能差異很大,顯存、帶寬水平參差不齊,在卡不多條件又比較艱苦的背景下,我們該如何進行高效的大模型訓練呢?
我們在這篇論文中找到了答案。
論文標題:YUAN 2.0: A Large Language Model with Localized Filtering-based Attention
論文鏈接:https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf
項目地址:https://github.com/IEIT-Yuan/Yuan-2.0
模型下載:https://huggingface.co/IEITYuan
在上個月,浪潮信息發(fā)布了千億級別的開源大模型源2.0,作為一個開源模型,源2.0在多個評測指標上
原文鏈接:顯存瓶頸被打破!大模型訓練的黑科技來了,帶寬不再制約大模型訓練
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。