AIGC動態歡迎閱讀
原標題:多模態模型學會打撲克:表現超越GPT-4v,全新強化學習框架是關鍵
關鍵字:模型,任務,能力,環境,智能
文章來源:量子位
內容字數:0字
內容摘要:
Simon Zhai 投稿量子位 | 公眾號 QbitAI只用強化學習來微調,無需人類反饋,就能讓多模態大模型學會做決策!
這種方法得到的模型,已經學會了看圖玩撲克、算“12點”等任務,表現甚至超越了GPT-4v。
這是來自UC伯克利等高校最新提出的微調方法,研究陣容也是相當豪華:
圖靈獎三巨頭之一、Meta首席AI科學家、紐約大學教授LeCun
UC伯克利大牛、ALOHA團隊成員Sergry Levine
ResNeXt一作、Sora基礎技術DiT作者謝賽寧
香港大學數據科學學院院長、UC伯克利教授馬毅
該方法名為RL4VLM,論文預印本已經上線,相關代碼也已在GitHub中開源。
RL4VLM提出了一種新的算法框架,直接使用強化學習方法對多模態大模型進行微調。
其中獎勵信息直接來源于環境當中,擺脫了RLHF中對于人類反饋的需要,從而直接賦予了多模態模型決策能力。
對于RL4VLM的意義,參與了這項工作的馬毅教授這樣說:
一方面希望大家對模型真實性能有更客觀清醒的認識;另一方面,也希望能建立一個平臺,支持探索如何進一步提升模型性能。
那么,用這種方法微調出來的多模態大模型,都能讓智能
原文鏈接:多模態模型學會打撲克:表現超越GPT-4v,全新強化學習框架是關鍵
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...