RL 究竟是如何與 LLM 做結(jié)合的?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:RL 究竟是如何與 LLM 做結(jié)合的?
關(guān)鍵字:行為,概率,句子,得分,機(jī)器人
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):8139字
內(nèi)容摘要:
直播預(yù)告 | 1月17日晚7點(diǎn),「多模態(tài)大模型線上閉門會(huì)」正式開講!阿里巴巴通義實(shí)驗(yàn)室 NLP 高級(jí)算法專家嚴(yán)明參與出品,攜手劉兆洋、李彥瑋、文束三位青年學(xué)者,共同探討多模態(tài)大模型的發(fā)展與應(yīng)用,歡迎報(bào)名。RLHF 想必今天大家都不陌生,但在 ChatGPT 問(wèn)世之前,將 RL 和 LM 結(jié)合起來(lái)的任務(wù)非常少見(jiàn)。這就導(dǎo)致此前大多做 RL 的同學(xué)不熟悉 Language Model(GPT)的概念,而做 NLP 的同學(xué)又不太了解 RL 是如何優(yōu)化的。在這篇文章中,我們將簡(jiǎn)單介紹 LM 和 RL 中的一些概念,并分析 RL 中的「序列決策」是如何作用到 LM 中的「句子生成」任務(wù)中的,希望可以幫助只熟悉 NLP 或只熟悉 RL 的同學(xué)更快理解 RLHF 的概念。
1、RL: Policy-Based & Value Based強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)的核心概念可簡(jiǎn)單概括為:一個(gè)機(jī)器人(Agent)在看到了一些信息(Observation)后,自己做出一個(gè)決策(Action),隨即根據(jù)采取決策后得到的反饋(Reward)來(lái)進(jìn)行自我學(xué)習(xí)(Learning)
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:「算法邦」,隸屬于智猩猩,關(guān)注大模型、生成式AI、計(jì)算機(jī)視覺(jué)三大領(lǐng)域的研究與開發(fā),提供技術(shù)文章、講座、在線研討會(huì)。