AIGC動態歡迎閱讀
原標題:這個團隊做了OpenAI沒Open的技術,開源OpenRLHF讓對齊大模型超簡單
關鍵字:模型,字節跳動,算法,內存,張量
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:Panda隨著大型語言模型(LLM)規模不斷增大,其性能也在不斷提升。盡管如此,LLM 依然面臨著一個關鍵難題:與人類的價值和意圖對齊。在解決這一難題方面,一種強大的技術是根據人類反饋的強化學習(RLHF)。
但是,隨著模型越來越大,RLHF 通常需要維持多個模型以及越來越復雜的學習流程,這又會導致內存和計算資源需求增長。舉個例子,近端策略優化(PPO,這是 RLHF 常用的一種算法)需要在訓練過程中維持四個模型。
由此,當語言模型的參數規模超過 700 億時,為了訓練和協調多個模型,所需的計算資源和調度復雜性會顯著增長 —— 這是當前的架構設計難以滿足的需求。
Transformer 強化學習(TRL)、ColossalChat(CAIChat)和 DeepSpeed-Chat(DSChat)等現有的開源 RLHF 框架是依靠零冗余優化器(Zero Redundancy Optimizer/ZeRO),來將 RLHF 訓練涉及的四個模型配置到同一臺 GPU 上。這個過程被稱為 co-location,即空間并置。
但是,隨著模型參數規模超過 700 億,在內存有限
原文鏈接:這個團隊做了OpenAI沒Open的技術,開源OpenRLHF讓對齊大模型超簡單
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...