70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024
關鍵字：模型,生成器,,游戲,答案
文章來源：新智元
內容字數：7970字

內容摘要：

新智元報道編輯：桃子
【新智元導讀】大模型回答如何更可靠？MIT研究團隊設計出「博弈」，將數學家常用的博弈論引入LLM改進中。沒想到，LLaMA-7B的表現，擊敗了LLaMA-65B，甚至與PaLM-540B相媲美。遇到一個問題用不同表達方式prompt時，大模型往往會給出兩種不同的答案。
比如，「秘魯的首都是什么」，「利馬是秘魯的首都嗎」。
對于這種回答不一致的問題，科學家們紛紛為大模型的「智商」擔憂起來。
正如了LeCun所言：
LLM確實比狗積累了更多的事實知識和語言能力。但是它們對物理世界的理解能力，以及推理規劃能力，遠遠不及狗。
那么，有沒有一種方式，能夠大模型幻覺，讓結果更加準確、高效？
來自MIT的研究人員，將「博弈論」的思想引入大模型的改進中。
他們共同設計了一個游戲，在游戲中，讓模型的兩種模式（生成式和判別式）相互對抗，努力找到它們可以達成一致的答案。
這個簡單的博弈過程，被稱為「博弈」（CONSENSUS GAME）。
也就是，讓模型自我對抗，以提升LLM準確性和內部一致性。
論文地址：https://openreview.net/pdf?id=n9x

原文鏈接：70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024