AIGC動態歡迎閱讀
原標題:谷歌DeepMind全新ToT基準:全面評估LLM時間推理能力
關鍵字:時間,問題,實體,關系,數據
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:alan
【新智元導讀】近日,來自谷歌DeepMind的研究人員,推出了專門用于評估大語言模型時間推理能力的基準測試——Test of Time(ToT),從兩個的維度分別考察了LLM的時間理解和算術能力。大語言模型的時間推理能力怎么樣?
我們先來看一道幼兒園的題目:
給出切爾西歷年的主教練名單,向模型提問:Pochettino之前的教練是誰?
此時,LLM能夠給出正確的回答(Lampard),——貌似有點實力?
但是,如果我們把人名來個變量代換(E1~E5),其他內容保持不變,LLM瞬間就降智了:
事實上,在第一次的題干里,我們并沒有說明Lampard教練叫什么名字,而答案里直接就出現了Frank。
所以LLM有可能只是碰到了原題?
于是小編用這兩道題分別測試了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。
從結果來看,上面被公開處刑的應該是ChatGPT。
而Gemini 1.0 pro和Claude 3 Sonnet甚至還不如ChatGPT,兩題全錯(雖然也給出了全名),估計是刷題的時候懈怠了。
相比之下,Ll
原文鏈接:谷歌DeepMind全新ToT基準:全面評估LLM時間推理能力
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...