<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek用的GRPO占用大量內存?有人給出了些方法

        AIGC動態8個月前發布 機器之心
        436 0 0

        深入研究 GRPO,發現了意外收獲。

        DeepSeek用的GRPO占用大量內存?有人給出了些破解方法

        原標題:DeepSeek用的GRPO占用大量內存?有人給出了些方法
        文章來源:機器之心
        內容字數:8253字

        RTX 3080 移動版可訓練的大模型及GRPO訓練技巧

        本文總結了使用RTX 3080移動版顯卡(16GB顯存)進行大型語言模型強化學習訓練的經驗,重點介紹了群組相對策略優化(GRPO)方法及其內存優化策略。

        1. 可訓練模型大小及方法選擇

          作者使用GRPO方法,在RTX 3080移動版上進行訓練,發現模型大小和訓練方式對顯存需求影響很大。實驗在參數量從5億到140億不等的模型上進行,比較了全參數微調和參數高效微調(PEFT,使用LoRA)。全參數微調比PEFT需要更多內存。在H100上進行的實驗顯示,全參數微調所需的VRAM超過80GB。

        2. GRPO的高內存需求原因

          GRPO的高內存需求源于其內部涉及多個模型(策略模型、參考模型和獎勵模型),每個查詢都會產生多個輸出,導致內存占用迅速增加。即使獎勵模型非參數化,內存需求依然很高。

        3. 內存優化策略

          為了降低內存占用,作者使用了兩種技術:8位優化器(例如8-bit AdamW)和梯度檢查點。8位優化器能更高效地存儲優化器跟蹤數據,而梯度檢查點則通過在訓練過程中拍攝快照來減少內存使用,雖然會降低訓練速度(約20-30%),但能顯著減少內存占用。

        4. 代碼示例及參數設置

          作者提供了使用Hugging Face的trl庫進行GRPO訓練的代碼示例,該代碼簡潔易懂,適合小型模型(如meta-llama/Llama-3.2-1B-Instruct)和數據集(如openai/GSM8K)。文中詳細說明了各個參數(如`num_generations`、`batch_size`、`gradient_accumulation_steps`、`num_completions`、`max_prompt_length`、`max_completion_length`)對VRAM使用量的影響,并建議在內存瓶頸修復前使用`num_generations=4`。

        5. VRAM使用量估算

          作者給出了VRAM使用量的粗略估算方法,考慮了模型參數、梯度、優化器狀態等因素,并指出PEFT可以減少梯度的顯存占用。

        6. 實驗結果及結論

          作者使用10億參數的Llama 3.2模型進行了完整訓練,結果顯示GRPO顯著提升了模型準確率(從19%提升到40.5%),展示了其強大潛力。

        總而言之,本文為GPU資源有限的開發者提供了寶貴的GRPO訓練經驗,并通過內存優化策略和參數調整,幫助開發者在有限的硬件條件下訓練更大的模型。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 色窝窝免费一区二区三区 | 无码人妻久久一区二区三区免费 | 在线亚洲v日韩v| 免费看又爽又黄禁片视频1000| 四虎必出精品亚洲高清| 成人毛片18女人毛片免费视频未| 国产 亚洲 中文在线 字幕| 久久久久久国产精品免费免费| 亚洲精品123区在线观看| 成人黄动漫画免费网站视频 | 亚洲AV成人一区二区三区观看| 成全视频免费高清| 瑟瑟网站免费网站入口| 精品国产亚洲男女在线线电影| a视频在线免费观看| 亚洲视频一区二区在线观看| 97视频热人人精品免费| 最新亚洲人成网站在线观看| 波多野结衣中文一区二区免费| 一级免费黄色毛片| 亚洲国产人成在线观看69网站| 黄色成人免费网站| 在线观看亚洲专区| 久久精品国产亚洲精品| 98精品全国免费观看视频| 亚洲精品第一综合99久久| 亚洲AV成人潮喷综合网| 男人都懂www深夜免费网站| 亚洲午夜精品一区二区公牛电影院| 免费无码又爽又高潮视频| 国产精品午夜免费观看网站| 亚洲情a成黄在线观看动漫尤物| 我要看WWW免费看插插视频| 一级毛片试看60分钟免费播放| 精品亚洲国产成AV人片传媒| 最近最新中文字幕完整版免费高清| 免费一级全黄少妇性色生活片| 亚洲AV无码AV男人的天堂| 日本免费一区二区三区最新vr| 免费精品久久天干天干| 亚洲精品天堂无码中文字幕|