UCLA華人提出全新自我對(duì)弈機(jī)制!LLM自己訓(xùn)自己,效果碾壓GPT-4專家指導(dǎo)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:UCLA華人提出全新自我對(duì)弈機(jī)制!LLM自己訓(xùn)自己,效果碾壓GPT-4專家指導(dǎo)
關(guān)鍵字:模型,數(shù)據(jù),研究人員,對(duì)手,自我
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):5347字
內(nèi)容摘要:
新智元報(bào)道編輯:潤(rùn)
【新智元導(dǎo)讀】來(lái)自UCLA的華人團(tuán)隊(duì)提出一種全新的LLM自我對(duì)弈系統(tǒng),能夠讓LLM自我合成數(shù)據(jù),自我微調(diào)提升性能,甚至超過(guò)了用GPT-4作為專家模型指導(dǎo)的效果。合成數(shù)據(jù)已經(jīng)成為了大語(yǔ)言模型進(jìn)化之路上最重要的一塊基石了。
在去年底,有網(wǎng)友扒出前OpenAI首席科學(xué)家Ilya曾經(jīng)在很多場(chǎng)合表示過(guò),LLM的發(fā)展不存在數(shù)據(jù)瓶頸,合成數(shù)據(jù)可以解決大部分的問(wèn)題。
英偉達(dá)高級(jí)科學(xué)家Jim Fan在看了最近的一批論文后也認(rèn)為,使用合成數(shù)據(jù),再加上傳統(tǒng)用于游戲和圖像生成的技術(shù)思路,可以讓LLM完成大幅度的自我進(jìn)化。
而正式提出這個(gè)方法的論文,是由來(lái)自UCLA的華人團(tuán)隊(duì)。
論文地址:https://arxiv.org/abs/2401.01335v1
他們通過(guò)自我對(duì)弈機(jī)制(SPIN)生成合成數(shù)據(jù),再通過(guò)自我微調(diào)的方法,不使用新的數(shù)據(jù)集,讓性能較弱的LLM在Open LLM Leaderboard Benchmark上將平均分從58.14提升至63.16。
研究人員提出了一種名為SPIN的自我微調(diào)的方法,通過(guò)自我對(duì)弈的方式——LLM與其前一輪迭代版本進(jìn)行對(duì)抗,從而逐步提升語(yǔ)言模型的性能
原文鏈接:UCLA華人提出全新自我對(duì)弈機(jī)制!LLM自己訓(xùn)自己,效果碾壓GPT-4專家指導(dǎo)
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。