在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7552字
內(nèi)容摘要:機(jī)器之心專欄機(jī)器之心編輯部該論文介紹了一種名為 ReMax 的新算法,專為基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)而設(shè)計。ReMax 在計算效率(約減少 50% 的 GPU 內(nèi)存和 2 倍的訓(xùn)練速度提升)和實現(xiàn)簡易性(6 行代碼)上超越了最常用的算法 PPO,且性能沒有損失。論文鏈接:https://arxiv.org/abs/2310.10505作者:李子牛,許天,張雨舜,俞揚(yáng),孫若愚,羅智泉機(jī)構(gòu):香…
原文鏈接:點此閱讀原文:在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...