基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型經(jīng)歷

AIGC動態(tài)2年前 (2024)發(fā)布算法邦

基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型調(diào)教經(jīng)歷

AIGC動態(tài)歡迎閱讀

原標(biāo)題：基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型經(jīng)歷
關(guān)鍵字：模型,報告,騰訊,數(shù)據(jù),過程
文章來源：算法邦
內(nèi)容字?jǐn)?shù)：13419字

內(nèi)容摘要：

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會，阿里巴巴通義千問大模型技術(shù)負(fù)責(zé)人周暢，潞晨科技創(chuàng)始人尤洋，生數(shù)科技CEO唐家渝，優(yōu)必選研究院執(zhí)行院長焦繼超，科大訊飛人形機(jī)器人首席科學(xué)家季超，DeepWisdom合伙人徐宗澤，騰訊研究科學(xué)家張馳，前Meta首席工程負(fù)責(zé)人胡魯輝等首批嘉賓已確認(rèn)帶來演講和報告，歡迎報名。項目地址：https://github.com/beyondguo/LLM-Tuning眾所周知，整個 RLHF (基于人類反饋的強(qiáng)化學(xué)習(xí)) 分為這么三步：
SFT (Supervised Fine-Tuning): 有監(jiān)督的微調(diào)，使用正常的 instruction following 或者對話的樣本，來訓(xùn)練模型的基礎(chǔ)對話、聽從 prompt 的能力；
RM (Reward Modeling): 基于人類的偏好和標(biāo)注，來訓(xùn)練一個能模擬人偏好的打分模型；
RL (Reinforcement Learning): 在前面的 SFT 模型的基礎(chǔ)上，借助 RM 提供反饋，來不斷通過 PPO 的強(qiáng)化學(xué)習(xí)框架來調(diào)整模型的行為。為了節(jié)省訓(xùn)練資源，快速了解整個 R

原文鏈接：基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型經(jīng)歷