Ilya預(yù)言錯(cuò)了!華人Nature一作給RLHF「判」,全球大模型都不可靠
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Ilya預(yù)言錯(cuò)了!華人Nature一作給RLHF「判」,全球大模型都不可靠
關(guān)鍵字:任務(wù),模型,提示,錯(cuò)誤,正確答案
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部 HXY
【新智元導(dǎo)讀】Ilya兩年前觀點(diǎn),竟被Nature論文反駁了!來(lái)自劍橋大學(xué)等團(tuán)隊(duì)最新研究發(fā)現(xiàn),所有大模型并不可靠,包括最強(qiáng)o1。2022年,AI大牛Ilya Sutskever曾預(yù)測(cè):「隨著時(shí)間推移,人類預(yù)期和AI實(shí)際表現(xiàn)差異可能會(huì)縮小」。
然而,一篇最新發(fā)表在Nature上的研究表明,事實(shí)并非如此!
世界上所有的大模型,甚至指令微調(diào)后的LLM,竟是一個(gè)「巨大的草臺(tái)班子」。
論文地址:https://www.nature.com/articles/s41586-024-07930-y
來(lái)自VRAIN、劍橋等機(jī)構(gòu)研究人員對(duì)o1-preview等領(lǐng)先的LLM開(kāi)啟了全方位評(píng)測(cè),結(jié)果發(fā)現(xiàn):
– LLM&人類無(wú)法保持一致:人類認(rèn)為復(fù)雜的任務(wù),LLM輕易解決;而對(duì)人類小菜一碟的問(wèn)題,LLM卻失敗了。
– LLM不會(huì)「回避」復(fù)雜任務(wù),而是強(qiáng)撐面子費(fèi)力思考半天,最終仍舊答錯(cuò)。
– 提示工程,無(wú)法挽救LLM的不可靠。
且看CoT「推理王者」o1-preview,既能解決非常復(fù)雜的字謎任務(wù),卻在超級(jí)簡(jiǎn)單的任務(wù)中犯錯(cuò)。(上)根據(jù)所給字母,成功拼出了electrolumine
原文鏈接:Ilya預(yù)言錯(cuò)了!華人Nature一作給RLHF「判」,全球大模型都不可靠
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: