MIT等首次深度研究「集成LLM」預測能力：可媲美人類群體準確率

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：MIT等首次深度研究「集成LLM」預測能力：可媲美人類群體準確率
關鍵字：模型,人類,政策,研究人員,問題
文章來源：新智元
內容字數：9515字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】針對31個問題，基于12個各式各樣LLM，兩項研究結果表明，LLM群體優于單純的無信息基線模型，并且在統計上與人類群體沒有差異。在實踐中，人類預測的準確性依賴于「群體智慧」（wisdom of the crowd）效應，即通過聚集一群個體預測者，對未來的預測準確率會顯著提高。
過去關于大型語言模型（LLMs）預測能力的工作表明，即便是最強大的LLM也仍然比不過人類的群體智慧。
最近，來自倫敦經濟學院、MIT和賓夕法尼亞大學的研究人員做了兩項研究，通過簡單、實際適用的預測集成方法，表明LLMs可以實現與人類群體競賽相當的預測準確率。論文鏈接：https://arxiv.org/pdf/2402.19379.pdf
在第一個研究中，將31個二元問題由12個LLM進行集成預測，與為期三個月的預測錦標賽中925名人類預測者的預測進行了比較，主要分析結果表明，LLM群體優于單純的無信息基線模型，并且在統計上與人類群體沒有差異。
在探索性分析中，研究人員發現這兩種方法在中等效應尺寸等價界限（medium-effect-size equivalence

原文鏈接：MIT等首次深度研究「集成LLM」預測能力：可媲美人類群體準確率