人工智能的崛起：新神降臨還是滅霸的末日審判？

AIGC動(dòng)態(tài)11個(gè)月前發(fā)布智猩猩GenAI

發(fā)布了新的Reinforcement Finetuning方法~

原標(biāo)題：OpenAI的強(qiáng)化微調(diào)：RL+Science 創(chuàng)造新神還是滅霸
文章來(lái)源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：3287字

OpenAI發(fā)布新的強(qiáng)化微調(diào)方法

2024年12月6日，加州時(shí)間上午11點(diǎn)，OpenAI推出了一種新的強(qiáng)化微調(diào)方法（Reinforcement Finetuning,RFT），旨在構(gòu)造專(zhuān)家模型，特別適用于醫(yī)療診斷和罕見(jiàn)病診斷等特定領(lǐng)域的決策問(wèn)題。該方法允許用戶(hù)上傳幾十到幾千條訓(xùn)練案例，通過(guò)微調(diào)實(shí)現(xiàn)高效決策。

強(qiáng)化微調(diào)的技術(shù)背景

此次發(fā)布的RFT方法基于廣泛應(yīng)用于對(duì)齊（alignment）、數(shù)學(xué)和編碼領(lǐng)域的技術(shù)，前身為人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback,RLHF）。RLHF通過(guò)用戶(hù)選擇偏好來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型（reward model），并利用強(qiáng)化學(xué)習(xí)算法（如PPO和DPO）對(duì)模型進(jìn)行微調(diào)，從而使模型生成更符合人類(lèi)偏好的內(nèi)容。

RFT的核心機(jī)制

OpenAI的RFT方法在少量數(shù)據(jù)的情況下，能夠掌握醫(yī)療診斷和科學(xué)決策過(guò)程。該方法本質(zhì)上結(jié)合了鏈?zhǔn)酵评恚–hain of Thought,CoT）和強(qiáng)化學(xué)習(xí)（RL），通過(guò)生成多樣的推理路徑進(jìn)行評(píng)分，并繼續(xù)進(jìn)行RL微調(diào)。關(guān)鍵在于如何定義狀態(tài)轉(zhuǎn)變（state-transition）以及如何在token級(jí)別和完整響應(yīng)級(jí)別之間找到平衡。

技術(shù)的局限性

盡管RFT展示了顯著的潛力，但在罕見(jiàn)病診斷等簡(jiǎn)單決策樹(shù)任務(wù)上表現(xiàn)優(yōu)異，并不代表其在更復(fù)雜科學(xué)問(wèn)題上的有效性。真正的科學(xué)問(wèn)題往往沒(méi)有固定選項(xiàng)，定義行動(dòng)和問(wèn)題的方式也更具挑戰(zhàn)性。此外，科學(xué)數(shù)據(jù)通常含有噪音，不如簡(jiǎn)單的多選題清晰。

潛在風(fēng)險(xiǎn)與未來(lái)展望

在OpenAI發(fā)布RFT的同時(shí)，啟動(dòng)了一個(gè)強(qiáng)化微調(diào)研究項(xiàng)目，邀請(qǐng)全球科研人員提交決策數(shù)據(jù)集。這引發(fā)了關(guān)于A(yíng)I安全性和可控性的討論。科學(xué)研究集中在少數(shù)非開(kāi)源公司手中，可能導(dǎo)致技術(shù)濫用和倫理風(fēng)險(xiǎn)。未來(lái)，如何確保AI技術(shù)的安全、可控和可追蹤，將是亟待解決的挑戰(zhàn)。

聯(lián)系作者

文章來(lái)源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下公眾號(hào)之一，深入關(guān)注大模型與AI智能體，及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

閱讀原文

# AIGC動(dòng)態(tài)# RLScience # 人工智能 # 強(qiáng)化學(xué)習(xí)# 微調(diào)# 行業(yè)應(yīng)用

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

人工智能的崛起：新神降臨還是滅霸的末日審判？

發(fā)布了新的Reinforcement Finetuning方法~

OpenAI發(fā)布新的強(qiáng)化微調(diào)方法

強(qiáng)化微調(diào)的技術(shù)背景

RFT的核心機(jī)制

技術(shù)的局限性

潛在風(fēng)險(xiǎn)與未來(lái)展望

聯(lián)系作者

內(nèi)容驅(qū)動(dòng)與智能對(duì)話(huà)的未來(lái)：一場(chǎng)平臺(tái)與Chatbot的激烈碰撞

Sora橫空出世，OpenAI系統(tǒng)瞬間崩潰！Altman緊急叫停新用戶(hù)注冊(cè)！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？