国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

OpenAI直播第二彈!奧特曼2024年最大驚喜竟來自字節(jié)?強化微調讓o1-mini逆襲o1

AIGC動態(tài)9個月前發(fā)布 新智元
482 0 0

新智元報道編輯:Aeneas 好困【新智元導讀】OpenAI第二天的直播,揭示了強化微調的強:強化微調后的o1-mini,竟然全面超越了地表最強基礎模型o1。而被奧特曼稱為「2024年我最大的驚喜」的技術,技術路線竟和來自字節(jié)跳動之前公開發(fā)表的強化微調研究思路相同。OpenAI 12天連播的第二彈,用短短三個單詞體現了什么叫「字少事大」——強化微調(Reinforcement Fine-Tuning)。首先,這是OpenAI第一次將之前僅限自家模型(如GPT-4o和o1系列)使用的強化學習技術,開放給外部開發(fā)者。其次,開發(fā)者只需提供最低「幾十個」高質量任務,就能通過強化微調實現領域專家模型的定制!并且,還能根據提供的參對模型的回應進行評分。最后,強化微調加強了模型在處理領域問題時的推理能力,并提升了在特定任務上的準確性。對于那些要求高精確性和專業(yè)知識的領域,強化微調將會發(fā)揮至關重要的作用。從OpenAI的官方演示中不難看出,強化微調的效果可謂是相當顯著——經過強化微調的o1 mini,竟然全面超越了當今最強的基礎模型o1。其中,強化微調版的o1 mini,在Top-1準確率上直接躍升180%達到了31%,遠超o1的25%。對此,奧特曼激動地表示:「這項工作效果出奇得好,是我2024年最大的驚喜之一!非常期待大家會用它去構建什么。」目前,強化微調研究計劃已進入Alpha階段,并將于2025年第一季度公開發(fā)布。為了搞清楚「強化微調」到底是個啥,我們便去問了問OpenAI自家的AI搜索。沒想到,結果卻出人意料——這個技術思路,在一篇被ACL 2024錄用為Oral的論文中,就已經提出了。而更喜人的是,團隊的成員全部來自字節(jié)跳動!在這項工作中,研究人員提出了一種簡單而有效的方法,來自增強LLM推理時的泛化能力——強化微調(Reinforced Fine-Tuning,ReFT)。論文地址:https://arxiv.org/abs/2401.08967簡單來說,ReFT首先會使用SFT對模型進行預熱,然后采用在線強化學習(PPO算法)進行優(yōu)化。也就是,對給定的問題自動采樣大量的推理路徑,并根據真實答案來獲取獎勵,從而進一步對模型進行微調。在GSM8K、MathQA和SVAMP數據集上的大量實驗表明,ReFT顯著優(yōu)于SFT,并且通過結合多數投票和重新排序等策略,可以進一步提升模型性能。不僅如此,ReFT還有著卓越的泛化能力——在訓練中僅需使用與SFT相同的問題集,而無需依賴額外或增強的訓練數據。強化微調,不是傳統(tǒng)微調這次上陣直播的四人,是OpenAI的研究員Mark Chen、John Allard、Julie Wang,以及伯克利實驗室計算生物學家Justin Reese。他們介紹說,這項功能已允許用戶在自己的數據集上微調o1。不過要強調的是,并不是傳統(tǒng)的微調,而是強化微調。它真正利用了強化學習算法,把模型從高級中學水平提升到專家博士級別。這個功能,能夠幫助把自己的優(yōu)質數據集轉化為獨一無二的用品,帶來「魔力」。強化微調(RFT),能讓開發(fā)者、研究人員和機器學習工程師首次有機會使用強化學習來創(chuàng)建專家級模型,在特定領域的任務中有卓越表現。對于法律、金融、工程、保險等領域,這項技術簡直是量身打造的。舉例來說,OpenAI最近和湯森路透合作,利用強化微調對o1 Mini進行了微調,使其成為了一名法律助手,幫法律專業(yè)人士完成了一些復雜、需要深入分析的工作流程 。史上首次,OpenAI微調支持強化學習去年年初,OpenAI就推出了監(jiān)督微調API。這項技術非常強大,核心目標是讓模型復制在輸入文本或圖像中發(fā)現的特征。在強化微調中,它不僅是教模型模仿輸入,而是去學習在自定義域上以全新的方式進行推理。當模型看到一個問題,研究者會給它空間來思考問題,然后給它的最終答案進行評分。然后,利用強化學習的強大能力,他們會強化那些導致正確答案的思維路徑,同時抑制那些導致錯誤答案的思維路徑。只需要數十到數千個高質量示例,模型就能學會以新的、有效的方式在定制領域中進行推理了!用OpenAI研究者的話說,這實在太瘋狂了,令人難以置信——僅用12個例子就能做到,這是傳統(tǒng)微調難以實現的。這也是史上首次,OpenAI的模型定制平臺可以支持強化學習。研究者強調說,OpenAI內部用來訓練GPT-4o和o1系列等頂尖模型,就是用的同樣技術。強化微調的o1,診斷罕見病伯克利實驗室的Justin,就介紹了強化微調給他的研究帶來的巨大幫助。他研究的是,使用計算方法來理解罕見疾病背后的遺傳原因。然而,現在評估罕見疾病并不容易,首先要對醫(yī)學有專業(yè)領域知識,還要對生物醫(yī)學數據進行系統(tǒng)化推理。而這,o1模型可以憑借其高級推理能力提供幫助。在這個項目中,Justin和同事們從數百篇關于罕見疾病的科學病例報告中提取了疾病信息,包括患者的體征和癥狀。他們希望能根據患者的癥狀,找出可能發(fā)生突變、導致這些癥狀的基因。為此,他們和OpenAI團隊一起訓練了o1模型,讓它更高效地推理疾病的成因。而在「根據一系列癥狀預測可能引發(fā)遺傳疾病的基因」這一任務上,o1-mini的表現超越了o1!這非常重要,因為o1-mini比o1更小、更快、成本更低。在OpenAI的開發(fā)平臺上,他們已經對一個模型進行監(jiān)督微調一年多了。他們上傳了一個訓練數據集,包含1100個示例。以下是一個單獨的數據點,包括病例報告、指令、正確答案三個部分。病例報告顯示,這是一名51歲的女性,有眼距增寬、甲狀旁腺功能亢進等癥狀。在指令部分,研究者會提示模型,希望它做什么。最后就是正確答案。注意,訓練過程中,并不會向模型展示這個答案,否則就是作弊了。但是,研究者以這訓練過程中用這個答案來評估模型。可以看出,這個任務的難度,已經遠遠超越了「Strawberry中有幾個r」的級別。接下來,他們上傳了一些驗證數據,它的格式與訓練數據完全相同,但驗證數據集和訓練數據集之間的正確基因沒有重疊。這就意味著,模型不能作弊,不能只是簡單地記住癥狀列表并將其與基因匹配。它必須真正從訓練數據集泛化到驗證數據集。強化學習的部分,是這樣體現的——他們引入評分器的概念,將模型輸出與正確答案比較,返回0到1之間的一個分數。0表示模型完全錯誤,1表示模型完全正確。在這個例子中,模型得到了0.7的分數,因為FOXE 3是正確答案,在基因列表中排第二位。它在列表中越往后,分數會越接近0。最終,研究者提供了一套評分器合集,能有效覆蓋在強化微調時可能會有的各種意圖空間。接下來,可以快速地復制一下評分器,然后就啟動了一個訓練任務。厲害的地方在于,只需要提供數據集和評分器(體現領域專業(yè)知識),就可以利用OpenAI強化學習算法的全部能力,以及完整的分布式模型訓練技術棧,來為自己的使用場景定制一個前沿模型了。一句話就是:拿上你的數據集和評分器,OpenAI就會給你一個微調模型。強化學習微調任務可能需要幾個小時到幾天的時間來運行可以看到,驗證集的獎勵分數呈上升趨勢。由于訓練數據集和驗證數據集之間的基因沒有重疊,這意味著:模型確實學會了這項任務中進行泛化!模型學會通用推理能力為了更深入地了解模型中微調過程中發(fā)生了什么變化,可以查看評估儀表板。其中,研究者設置了三個不同運行,分別是運行在o1、o1 mini和強化微調后的o1 mini上的任務。可以看到,獎勵分數呈現右上角上升的趨勢,但這對任務來說意味著什么呢?為此,他們設置了三個不同的評估指標,分別是Top-1(第一項正確率)、Top-5(前五項正確率)和Top-max(是否包含正確答案)。在Top-1指標中,o1 mini在約200條數據上的得分是17%。o1得到了25%,而微調后的o1 mini,得到了31%。ChatGPT就此生成了一張更直觀的圖表。這顯示出,模型確實學會了如何在這類數據上進行推理的通用能力!在Justin看來,強化學習將極大地振奮生物學研究社區(qū),近期內的最佳方案,可能就是結合現有生物信息學工具和類o1模型的混合解決方案。而以上,僅僅是強化微調在科學研究中的一個應用而已。除了已經驗證的生物化學、AI安全、法律以及醫(yī)療保健數據集,模型還會在數百種其他應用場景上發(fā)揮作用。OpenAI的Alpha計劃,會讓更多人在最重要的任務上,推動o1模型能力的邊界。直播最后,依然是OpenAI式的圣誕冷笑話一則——最近,圣誕老人在嘗試制造一輛無人駕駛雪橇,但不知為何,他的模型總是無法識別樹木,導致雪橇不停地撞上道路兩旁的樹。你們猜這是為什么?答案是:因為他忘了給模型進行「pine-tune」(松樹微調)!參考資料:https://openai.com/form/rft-research-program/https://x.com/OpenAI/status/1865091561912164499https://arxiv.org/pdf/2401.08967

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        视频一区二区欧美| 日韩欧美中文一区| 91蜜桃免费观看视频| 国产欧美日韩精品a在线观看| 国产麻豆精品久久一二三| 日韩欧美成人午夜| 高清国产一区二区三区| 最新日韩av在线| 欧美三级视频在线观看| 日本视频中文字幕一区二区三区| 欧美www视频| av在线不卡网| 日本午夜精品视频在线观看| 欧美精品一区二区三区蜜桃视频 | 日韩精品欧美成人高清一区二区| 337p亚洲精品色噜噜噜| 国产一区啦啦啦在线观看| 亚洲伦在线观看| 欧美一级理论片| 不卡欧美aaaaa| 午夜精彩视频在线观看不卡| 久久综合九色综合久久久精品综合| www.色精品| 九九精品视频在线看| 亚洲男人都懂的| 久久亚洲私人国产精品va媚药| 91亚洲国产成人精品一区二区三| 视频在线观看91| 国产精品久久久久久久第一福利| 欧美精品日日鲁夜夜添| 91.com视频| 日韩欧美你懂的| 亚洲一区二区在线免费观看视频| 欧美自拍偷拍一区| 精品一区二区在线视频| 亚洲视频1区2区| 91精品国产综合久久小美女| 成人av网站在线| 久久av老司机精品网站导航| 亚洲一区二区三区精品在线| 国产视频911| 日韩一区二区三区免费观看| 欧美亚洲综合另类| 国产高清视频一区| 久久精品免费观看| 日本少妇一区二区| 亚洲国产成人高清精品| 自拍av一区二区三区| 国产视频一区二区在线观看| 日韩一级黄色片| 欧美精品亚洲二区| 欧美高清视频在线高清观看mv色露露十八 | 成人免费在线观看入口| 精品久久久久久久人人人人传媒 | 91蜜桃网址入口| 国产高清亚洲一区| 粉嫩av一区二区三区在线播放| 久久精工是国产品牌吗| 男女性色大片免费观看一区二区| 五月婷婷综合在线| 日韩国产高清影视| 美女视频一区二区| 久久国产视频网| 九一久久久久久| 国产乱码精品一区二区三区五月婷| 美女视频黄免费的久久| 国产在线视频一区二区| 国模娜娜一区二区三区| 国产成人精品亚洲日本在线桃色| 国产成人自拍在线| 91蜜桃免费观看视频| 欧美丝袜自拍制服另类| 欧美日韩精品一区二区在线播放| 欧美电影一区二区| 精品不卡在线视频| 国产精品久久久久aaaa| 亚洲影视在线播放| 久久 天天综合| 成人精品电影在线观看| 欧美中文字幕一区二区三区| 欧美高清性hdvideosex| 国产婷婷色一区二区三区| 亚洲欧美日韩在线播放| 日韩精品电影在线观看| 国产精品77777竹菊影视小说| 成人av在线播放网址| 在线免费观看日本欧美| 欧美va日韩va| 夜夜操天天操亚洲| 狠狠色综合播放一区二区| 91丝袜美腿高跟国产极品老师| 欧美久久久久久蜜桃| 国产日韩欧美在线一区| 亚洲国产aⅴ天堂久久| 国产又黄又大久久| 欧美在线不卡一区| 国产欧美精品一区二区色综合朱莉| 亚洲精品一二三区| 国产一区二区三区| 欧美日韩免费在线视频| 国产欧美久久久精品影院| 首页国产丝袜综合| 99免费精品在线观看| 日韩欧美国产综合| 亚洲地区一二三色| 99久久99久久综合| www久久精品| 日韩精品一二区| 91色婷婷久久久久合中文| 欧美精品一区二区在线观看| 亚洲伊人色欲综合网| 99久久精品免费看| 国产欧美日产一区| 国产一级精品在线| 日韩美女一区二区三区| 亚洲h在线观看| 91麻豆123| 亚洲欧洲成人精品av97| 国产成人av电影在线| 精品99久久久久久| 美女久久久精品| 欧美一区二区三级| 日本欧美一区二区三区乱码| 色综合久久综合中文综合网| 国产精品三级视频| 成人综合婷婷国产精品久久| 日韩精品资源二区在线| 青青草国产精品97视觉盛宴| 欧美中文字幕亚洲一区二区va在线| 自拍视频在线观看一区二区| 成人永久免费视频| 国产精品久久毛片| 懂色av一区二区夜夜嗨| 国产亚洲欧美日韩在线一区| 国产综合色视频| 精品成人佐山爱一区二区| 国产在线视频一区二区三区| 久久久91精品国产一区二区三区| 韩国欧美国产1区| 国产性色一区二区| 99久久777色| 亚洲综合激情网| 91精品在线观看入口| 老司机午夜精品99久久| 久久你懂得1024| 国产成人a级片| 亚洲精品高清视频在线观看| 欧美日韩在线观看一区二区| 日日噜噜夜夜狠狠视频欧美人 | 欧美三级电影网站| 五月天丁香久久| 欧美xxxx在线观看| 春色校园综合激情亚洲| 亚洲乱码国产乱码精品精小说 | 日韩av高清在线观看| 精品久久五月天| 成人动漫精品一区二区| 一区二区三区资源| 欧美videos大乳护士334| 成人激情小说网站| 视频一区二区三区在线| 久久久精品黄色| 91极品视觉盛宴| 久久精品av麻豆的观看方式| 欧美经典三级视频一区二区三区| 色妞www精品视频| 蜜桃视频在线观看一区二区| 亚洲国产成人一区二区三区| 欧美综合亚洲图片综合区| 九九热在线视频观看这里只有精品| 国产精品久久精品日日| 欧美日韩国产免费一区二区 | 成人av综合在线| 石原莉奈在线亚洲三区| 国产精品国产a| 日韩免费观看高清完整版| 99久久99久久久精品齐齐| 久久国内精品自在自线400部| 亚洲欧美电影院| 亚洲精品在线网站| 欧美三级韩国三级日本一级| 国产不卡视频在线观看| 视频在线在亚洲| 一区二区三区波多野结衣在线观看| 欧美一区二区观看视频| 色婷婷国产精品| 成人久久视频在线观看| 开心九九激情九九欧美日韩精美视频电影 | 欧美精品一区二区三区很污很色的| 92国产精品观看| 国产精品一区二区三区乱码| 视频一区中文字幕国产| 一区二区三区**美女毛片| 国产精品情趣视频| 国产午夜精品久久久久久久 | 久久综合九色综合欧美就去吻| 欧美日韩黄色一区二区| 色久综合一二码| 97精品国产97久久久久久久久久久久| 黄色资源网久久资源365|