RL 究竟是如何與 LLM 做結合的？

AIGC動態2年前 (2024)發布算法邦

RL 究竟是如何與 LLM 做結合的？

AIGC動態歡迎閱讀

原標題：RL 究竟是如何與 LLM 做結合的？
關鍵字：行為,概率,句子,得分,機器人
文章來源：算法邦
內容字數：8139字

內容摘要：

直播預告 | 1月17日晚7點，「多模態大模型線上閉門會」正式開講！阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品，攜手劉兆洋、李彥瑋、文束三位青年學者，共同探討多模態大模型的發展與應用，歡迎報名。RLHF 想必今天大家都不陌生，但在 ChatGPT 問世之前，將 RL 和 LM 結合起來的任務非常少見。這就導致此前大多做 RL 的同學不熟悉 Language Model（GPT）的概念，而做 NLP 的同學又不太了解 RL 是如何優化的。在這篇文章中，我們將簡單介紹 LM 和 RL 中的一些概念，并分析 RL 中的「序列決策」是如何作用到 LM 中的「句子生成」任務中的，希望可以幫助只熟悉 NLP 或只熟悉 RL 的同學更快理解 RLHF 的概念。
1、RL: Policy-Based & Value Based強化學習（Reinforcement Learning, RL）的核心概念可簡單概括為：一個機器人（Agent）在看到了一些信息（Observation）后，自己做出一個決策（Action），隨即根據采取決策后得到的反饋（Reward）來進行自我學習（Learning）

原文鏈接：RL 究竟是如何與 LLM 做結合的？