谷歌DeepMind全新ToT基準(zhǔn):全面評(píng)估LLM時(shí)間推理能力
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:谷歌DeepMind全新ToT基準(zhǔn):全面評(píng)估LLM時(shí)間推理能力
關(guān)鍵字:時(shí)間,問題,實(shí)體,關(guān)系,數(shù)據(jù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:alan
【新智元導(dǎo)讀】近日,來自谷歌DeepMind的研究人員,推出了專門用于評(píng)估大語言模型時(shí)間推理能力的基準(zhǔn)測(cè)試——Test of Time(ToT),從兩個(gè)的維度分別考察了LLM的時(shí)間理解和算術(shù)能力。大語言模型的時(shí)間推理能力怎么樣?
我們先來看一道幼兒園的題目:
給出切爾西歷年的主教練名單,向模型提問:Pochettino之前的教練是誰?
此時(shí),LLM能夠給出正確的回答(Lampard),——貌似有點(diǎn)實(shí)力?
但是,如果我們把人名來個(gè)變量代換(E1~E5),其他內(nèi)容保持不變,LLM瞬間就降智了:
事實(shí)上,在第一次的題干里,我們并沒有說明Lampard教練叫什么名字,而答案里直接就出現(xiàn)了Frank。
所以LLM有可能只是碰到了原題?
于是小編用這兩道題分別測(cè)試了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。
從結(jié)果來看,上面被公開處刑的應(yīng)該是ChatGPT。
而Gemini 1.0 pro和Claude 3 Sonnet甚至還不如ChatGPT,兩題全錯(cuò)(雖然也給出了全名),估計(jì)是刷題的時(shí)候懈怠了。
相比之下,Ll
原文鏈接:谷歌DeepMind全新ToT基準(zhǔn):全面評(píng)估LLM時(shí)間推理能力
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。