AIGC動態歡迎閱讀
原標題:RL 究竟是如何與 LLM 做結合的?
關鍵字:行為,概率,句子,得分,機器人
文章來源:算法邦
內容字數:8139字
內容摘要:
直播預告 | 1月17日晚7點,「多模態大模型線上閉門會」正式開講!阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品,攜手劉兆洋、李彥瑋、文束三位青年學者,共同探討多模態大模型的發展與應用,歡迎報名。RLHF 想必今天大家都不陌生,但在 ChatGPT 問世之前,將 RL 和 LM 結合起來的任務非常少見。這就導致此前大多做 RL 的同學不熟悉 Language Model(GPT)的概念,而做 NLP 的同學又不太了解 RL 是如何優化的。在這篇文章中,我們將簡單介紹 LM 和 RL 中的一些概念,并分析 RL 中的「序列決策」是如何作用到 LM 中的「句子生成」任務中的,希望可以幫助只熟悉 NLP 或只熟悉 RL 的同學更快理解 RLHF 的概念。
1、RL: Policy-Based & Value Based強化學習(Reinforcement Learning, RL)的核心概念可簡單概括為:一個機器人(Agent)在看到了一些信息(Observation)后,自己做出一個決策(Action),隨即根據采取決策后得到的反饋(Reward)來進行自我學習(Learning)
原文鏈接:RL 究竟是如何與 LLM 做結合的?
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發,提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...