這就是OpenAI神秘的Q*？斯坦福：語言模型就是Q函數(shù)

AIGC動態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：這就是OpenAI神秘的Q*？斯坦福：語言模型就是Q函數(shù)
關(guān)鍵字：模型,函數(shù),算法,機(jī),方法
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4506字

內(nèi)容摘要：

機(jī)器之心報道
編輯：Panda??還記得去年 11 月底爆出來的 Q* 項目嗎？這是傳說中 OpenAI 正在秘密開展、或?qū)眍嵏残宰兏锏?AI 項目。如果你想回憶一下，可參看機(jī)器之心當(dāng)時的報道《全網(wǎng)大討論：引爆 OpenAI 全員亂斗的 Q * 到底是什么？》簡而言之，Q* 很可能是 Q 強(qiáng)化學(xué)習(xí)和 A* 搜索這兩種 AI 方法的結(jié)合。
近日，斯坦福大學(xué)一個團(tuán)隊的一項新研究似乎為這一研究方向的潛力提供了佐證，其聲稱現(xiàn)在已經(jīng)取得非凡成就的「語言模型不是一個獎勵函數(shù)，而是一個 Q 函數(shù)！」由此發(fā)散思維猜想一下，也許 OpenAI 秘密的 Q* 項目或許真的是造就 AGI 的正確方向（或之一）。論文標(biāo)題：From r to Q?: Your Language Model is Secretly a Q-Function
論文地址：https://arxiv.org/pdf/2404.12358.pdf
在對齊大型語言模型（LLM）與人類意圖方面，最常用的方法必然是根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）。通過學(xué)習(xí)基于人類標(biāo)注的比較的獎勵函數(shù)，RLHF 能夠捕獲實(shí)踐中難以描述的復(fù)雜目標(biāo)。研究者們

原文鏈接：這就是OpenAI神秘的Q*？斯坦福：語言模型就是Q函數(shù)