AIGC動態歡迎閱讀
原標題:基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型經歷
關鍵字:模型,報告,騰訊,數據,過程
文章來源:算法邦
內容字數:13419字
內容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術負責人周暢,潞晨科技創始人尤洋,生數科技CEO唐家渝,優必選研究院執行院長焦繼超,科大訊飛人形機器人首席科學家季超,DeepWisdom合伙人徐宗澤,騰訊研究科學家張馳,前Meta首席工程負責人胡魯輝等首批嘉賓已確認帶來演講和報告,歡迎報名。項目地址:https://github.com/beyondguo/LLM-Tuning眾所周知,整個 RLHF (基于人類反饋的強化學習) 分為這么三步:
SFT (Supervised Fine-Tuning): 有監督的微調,使用正常的 instruction following 或者對話的樣本,來訓練模型的基礎對話、聽從 prompt 的能力;
RM (Reward Modeling): 基于人類的偏好和標注,來訓練一個能模擬人偏好的打分模型;
RL (Reinforcement Learning): 在前面的 SFT 模型的基礎上,借助 RM 提供反饋,來不斷通過 PPO 的強化學習框架來調整模型的行為。為了節省訓練資源,快速了解整個 R
原文鏈接:基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型經歷
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...