AIGC動態歡迎閱讀
原標題:這就是OpenAI神秘的Q*?斯坦福:語言模型就是Q函數
關鍵字:模型,函數,算法,機,方法
文章來源:機器之心
內容字數:4506字
內容摘要:
機器之心報道
編輯:Panda??還記得去年 11 月底爆出來的 Q* 項目嗎?這是傳說中 OpenAI 正在秘密開展、或將帶來顛覆性變革的 AI 項目。如果你想回憶一下,可參看機器之心當時的報道《全網大討論:引爆 OpenAI 全員亂斗的 Q * 到底是什么?》簡而言之,Q* 很可能是 Q 強化學習和 A* 搜索這兩種 AI 方法的結合。
近日,斯坦福大學一個團隊的一項新研究似乎為這一研究方向的潛力提供了佐證,其聲稱現在已經取得非凡成就的「語言模型不是一個獎勵函數,而是一個 Q 函數!」由此發散思維猜想一下,也許 OpenAI 秘密的 Q* 項目或許真的是造就 AGI 的正確方向(或之一)。論文標題:From r to Q?: Your Language Model is Secretly a Q-Function
論文地址:https://arxiv.org/pdf/2404.12358.pdf
在對齊大型語言模型(LLM)與人類意圖方面,最常用的方法必然是根據人類反饋的強化學習(RLHF)。通過學習基于人類標注的比較的獎勵函數,RLHF 能夠捕獲實踐中難以描述的復雜目標。研究者們
原文鏈接:這就是OpenAI神秘的Q*?斯坦福:語言模型就是Q函數
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...