顛覆認知：大模型不可靠，越大越不可靠？最新研究登上 Nature

AIGC動態歡迎閱讀

原標題：顛覆認知：大模型不可靠，越大越不可靠？最新研究登上 Nature
關鍵字：模型,任務,難度,錯誤率,錯誤
文章來源：人工智能學家
內容字數：0字

內容摘要：

人工智能（AI）模型的參數規模越大，生成的答案就越準確？就更加可信？
還真不一定！
日前，一項發表在權威科學期刊 Nature 上的研究表明：相比于小參數模型，大參數模型不會承認它們的“無知”，而更傾向于生成錯誤答案。
值得關注的是，人們并不善于發現這些錯誤。這項研究來自瓦倫西亞理工大學團隊及其合作者，他們在研究了 GPT、LLaMA 和 BLOOM 系列大語言模型（LLM）之后發現——
盡管正如預期的那樣，由于一些微調方法（如 RLFH），參數規模更大的 LLM 生成的答案更準確，尤其是在復雜任務上，但整體可靠性卻較低。
在所有不準確的回答中，錯誤回答的比例有所上升，甚至在一些簡單任務上出現更多低級錯誤。例如，GPT-4 在處理簡單的加法和字謎時的錯誤率竟比一些小模型高出 15%。這是因為模型不太可能回避回答問題——比如承認它不知道或者轉移話題。
以上結果表明，大參數模型在簡單任務上可能會出現過度擬合或錯誤估計的風險，反而更不可靠。模型擴展帶來“能力反差”
在這項工作中，研究人員從人類用戶與 LLM 互動的角度，探討了難度一致性、任務回避和提示穩定性三個核心交織元素對 LLM 可靠性

原文鏈接：顛覆認知：大模型不可靠，越大越不可靠？最新研究登上 Nature