MIT等首次深度研究「集成LLM」預(yù)測能力:可媲美人類群體準(zhǔn)確率
AIGC動態(tài)歡迎閱讀
原標(biāo)題:MIT等首次深度研究「集成LLM」預(yù)測能力:可媲美人類群體準(zhǔn)確率
關(guān)鍵字:模型,人類,政策,研究人員,問題
文章來源:新智元
內(nèi)容字?jǐn)?shù):9515字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導(dǎo)讀】針對31個問題,基于12個各式各樣LLM,兩項研究結(jié)果表明,LLM群體優(yōu)于單純的無信息基線模型,并且在統(tǒng)計上與人類群體沒有差異。在實踐中,人類預(yù)測的準(zhǔn)確性依賴于「群體智慧」(wisdom of the crowd)效應(yīng),即通過聚集一群個體預(yù)測者,對未來的預(yù)測準(zhǔn)確率會顯著提高。
過去關(guān)于大型語言模型(LLMs)預(yù)測能力的工作表明,即便是最強(qiáng)大的LLM也仍然比不過人類的群體智慧。
最近,來自倫敦經(jīng)濟(jì)學(xué)院、MIT和賓夕法尼亞大學(xué)的研究人員做了兩項研究,通過簡單、實際適用的預(yù)測集成方法,表明LLMs可以實現(xiàn)與人類群體競賽相當(dāng)?shù)念A(yù)測準(zhǔn)確率。論文鏈接:https://arxiv.org/pdf/2402.19379.pdf
在第一個研究中,將31個二元問題由12個LLM進(jìn)行集成預(yù)測,與為期三個月的預(yù)測錦標(biāo)賽中925名人類預(yù)測者的預(yù)測進(jìn)行了比較,主要分析結(jié)果表明,LLM群體優(yōu)于單純的無信息基線模型,并且在統(tǒng)計上與人類群體沒有差異。
在探索性分析中,研究人員發(fā)現(xiàn)這兩種方法在中等效應(yīng)尺寸等價界限(medium-effect-size equivalence
原文鏈接:MIT等首次深度研究「集成LLM」預(yù)測能力:可媲美人類群體準(zhǔn)確率
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。