通研院研究發(fā)現(xiàn)大語言模型在心智推理和行為規(guī)劃上顯著落后于人類
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:通研院研究發(fā)現(xiàn)大語言模型在心智推理和行為規(guī)劃上顯著落后于人類
關(guān)鍵字:任務(wù),模型,人類,心智,社會(huì)
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
來源:北京通用人工智能研究院
論文導(dǎo)讀隨著大語言模型(LLMs)的不斷發(fā)展,其是否具有人類水平的心智推理和社會(huì)智能這一問題得到了越來越多的關(guān)注和討論。日前,Nature子刊《自然·人類行為》的一篇最新研究[1]表明,GPT-4在一些心智理論測(cè)試任務(wù)中的表現(xiàn)明顯優(yōu)于人類,能夠比人類更好地檢測(cè)出諷刺和暗示;Google DeepMind也發(fā)表了論文[2],稱他們的研究發(fā)現(xiàn)GPT-4在心智理論任務(wù)上的表現(xiàn)已經(jīng)完全達(dá)到了成年人的水平,在第6階心智推理上的表現(xiàn)更是大幅超過了人類。媒體報(bào)道中更是不乏“GPT-4高階心智理論徹底擊敗人類!”“在心智理論上,人類是徹底被LLMs甩在后面了”等結(jié)論——然而,現(xiàn)在得出這些結(jié)論是否有點(diǎn)太早了呢?
北京通用人工智能研究院(簡(jiǎn)稱通研院)研究團(tuán)隊(duì)通過兩類簡(jiǎn)單的社會(huì)智能測(cè)試任務(wù)揭示出大語言模型在心智推理(由行動(dòng)推測(cè)偏好)與行為規(guī)劃(用行動(dòng)表達(dá)偏好)上仍與人類存在顯著差異。其表現(xiàn)為:在處理任務(wù)時(shí),大語言模型更傾向依賴表層模式識(shí)別作為處理依據(jù),沒有使用更深層次的心智推理和社會(huì)智能能力來解決問題,并且在遇到新的或變化的情景時(shí)表現(xiàn)不佳。該研究成果由通研院聯(lián)合北京大學(xué)、西安交
原文鏈接:通研院研究發(fā)現(xiàn)大語言模型在心智推理和行為規(guī)劃上顯著落后于人類
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)