顛覆認(rèn)知:大模型不可靠,越大越不可靠?最新研究登上 Nature

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:顛覆認(rèn)知:大模型不可靠,越大越不可靠?最新研究登上 Nature
關(guān)鍵字:模型,任務(wù),難度,錯(cuò)誤率,錯(cuò)誤
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
人工智能(AI)模型的參數(shù)規(guī)模越大,生成的答案就越準(zhǔn)確?就更加可信?
還真不一定!
日前,一項(xiàng)發(fā)表在權(quán)威科學(xué)期刊 Nature 上的研究表明:相比于小參數(shù)模型,大參數(shù)模型不會(huì)承認(rèn)它們的“無知”,而更傾向于生成錯(cuò)誤答案。
值得關(guān)注的是,人們并不善于發(fā)現(xiàn)這些錯(cuò)誤。這項(xiàng)研究來自瓦倫西亞理工大學(xué)團(tuán)隊(duì)及其合作者,他們在研究了 GPT、LLaMA 和 BLOOM 系列大語言模型(LLM)之后發(fā)現(xiàn)——
盡管正如預(yù)期的那樣,由于一些微調(diào)方法(如 RLFH),參數(shù)規(guī)模更大的 LLM 生成的答案更準(zhǔn)確,尤其是在復(fù)雜任務(wù)上,但整體可靠性卻較低。
在所有不準(zhǔn)確的回答中,錯(cuò)誤回答的比例有所上升,甚至在一些簡單任務(wù)上出現(xiàn)更多低級錯(cuò)誤。例如,GPT-4 在處理簡單的加法和字謎時(shí)的錯(cuò)誤率竟比一些小模型高出 15%。這是因?yàn)槟P筒惶赡芑乇芑卮饐栴}——比如承認(rèn)它不知道或者轉(zhuǎn)移話題。
以上結(jié)果表明,大參數(shù)模型在簡單任務(wù)上可能會(huì)出現(xiàn)過度擬合或錯(cuò)誤估計(jì)的風(fēng)險(xiǎn),反而更不可靠。模型擴(kuò)展帶來“能力反差”
在這項(xiàng)工作中,研究人員從人類用戶與 LLM 互動(dòng)的角度,探討了難度一致性、任務(wù)回避和提示穩(wěn)定性三個(gè)核心交織元素對 LLM 可靠性
原文鏈接:顛覆認(rèn)知:大模型不可靠,越大越不可靠?最新研究登上 Nature
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號