這就是OpenAI神秘的Q*?斯坦福:語言模型就是Q函數(shù)

AIGC動態(tài)歡迎閱讀
原標(biāo)題:這就是OpenAI神秘的Q*?斯坦福:語言模型就是Q函數(shù)
關(guān)鍵字:模型,函數(shù),算法,機(jī),方法
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4506字
內(nèi)容摘要:
機(jī)器之心報道
編輯:Panda??還記得去年 11 月底爆出來的 Q* 項目嗎?這是傳說中 OpenAI 正在秘密開展、或?qū)眍嵏残宰兏锏?AI 項目。如果你想回憶一下,可參看機(jī)器之心當(dāng)時的報道《全網(wǎng)大討論:引爆 OpenAI 全員亂斗的 Q * 到底是什么?》簡而言之,Q* 很可能是 Q 強(qiáng)化學(xué)習(xí)和 A* 搜索這兩種 AI 方法的結(jié)合。
近日,斯坦福大學(xué)一個團(tuán)隊的一項新研究似乎為這一研究方向的潛力提供了佐證,其聲稱現(xiàn)在已經(jīng)取得非凡成就的「語言模型不是一個獎勵函數(shù),而是一個 Q 函數(shù)!」由此發(fā)散思維猜想一下,也許 OpenAI 秘密的 Q* 項目或許真的是造就 AGI 的正確方向(或之一)。論文標(biāo)題:From r to Q?: Your Language Model is Secretly a Q-Function
論文地址:https://arxiv.org/pdf/2404.12358.pdf
在對齊大型語言模型(LLM)與人類意圖方面,最常用的方法必然是根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。通過學(xué)習(xí)基于人類標(biāo)注的比較的獎勵函數(shù),RLHF 能夠捕獲實(shí)踐中難以描述的復(fù)雜目標(biāo)。研究者們
原文鏈接:這就是OpenAI神秘的Q*?斯坦福:語言模型就是Q函數(shù)
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號