UCLA華人提出全新自我對(duì)弈機(jī)制！LLM自己訓(xùn)自己，效果碾壓GPT-4專家指導(dǎo)

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：UCLA華人提出全新自我對(duì)弈機(jī)制！LLM自己訓(xùn)自己，效果碾壓GPT-4專家指導(dǎo)
關(guān)鍵字：模型,數(shù)據(jù),研究人員,對(duì)手,自我
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：5347字

內(nèi)容摘要：

新智元報(bào)道編輯：潤(rùn)
【新智元導(dǎo)讀】來(lái)自UCLA的華人團(tuán)隊(duì)提出一種全新的LLM自我對(duì)弈系統(tǒng)，能夠讓LLM自我合成數(shù)據(jù)，自我微調(diào)提升性能，甚至超過(guò)了用GPT-4作為專家模型指導(dǎo)的效果。合成數(shù)據(jù)已經(jīng)成為了大語(yǔ)言模型進(jìn)化之路上最重要的一塊基石了。
在去年底，有網(wǎng)友扒出前OpenAI首席科學(xué)家Ilya曾經(jīng)在很多場(chǎng)合表示過(guò)，LLM的發(fā)展不存在數(shù)據(jù)瓶頸，合成數(shù)據(jù)可以解決大部分的問(wèn)題。
英偉達(dá)高級(jí)科學(xué)家Jim Fan在看了最近的一批論文后也認(rèn)為，使用合成數(shù)據(jù)，再加上傳統(tǒng)用于游戲和圖像生成的技術(shù)思路，可以讓LLM完成大幅度的自我進(jìn)化。
而正式提出這個(gè)方法的論文，是由來(lái)自UCLA的華人團(tuán)隊(duì)。
論文地址：https://arxiv.org/abs/2401.01335v1
他們通過(guò)自我對(duì)弈機(jī)制（SPIN）生成合成數(shù)據(jù)，再通過(guò)自我微調(diào)的方法，不使用新的數(shù)據(jù)集，讓性能較弱的LLM在Open LLM Leaderboard Benchmark上將平均分從58.14提升至63.16。
研究人員提出了一種名為SPIN的自我微調(diào)的方法，通過(guò)自我對(duì)弈的方式——LLM與其前一輪迭代版本進(jìn)行對(duì)抗，從而逐步提升語(yǔ)言模型的性能

原文鏈接：UCLA華人提出全新自我對(duì)弈機(jī)制！LLM自己訓(xùn)自己，效果碾壓GPT-4專家指導(dǎo)

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文