在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了

AIGC動態(tài)歡迎閱讀
原標題:在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了
文章來源:機器之心
內(nèi)容字數(shù):7552字
內(nèi)容摘要:機器之心專欄機器之心編輯部該論文介紹了一種名為 ReMax 的新算法,專為基于人類反饋的強化學習(RLHF)而設(shè)計。ReMax 在計算效率(約減少 50% 的 GPU 內(nèi)存和 2 倍的訓練速度提升)和實現(xiàn)簡易性(6 行代碼)上超越了最常用的算法 PPO,且性能沒有損失。論文鏈接:https://arxiv.org/abs/2310.10505作者:李子牛,許天,張雨舜,俞揚,孫若愚,羅智泉機構(gòu):香…
原文鏈接:點此閱讀原文:在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號