谷歌DeepMind全新ToT基準：全面評估LLM時間推理能力

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：谷歌DeepMind全新ToT基準：全面評估LLM時間推理能力
關鍵字：時間,問題,實體,關系,數據
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：alan
【新智元導讀】近日，來自谷歌DeepMind的研究人員，推出了專門用于評估大語言模型時間推理能力的基準測試——Test of Time（ToT），從兩個的維度分別考察了LLM的時間理解和算術能力。大語言模型的時間推理能力怎么樣？
我們先來看一道幼兒園的題目：
給出切爾西歷年的主教練名單，向模型提問：Pochettino之前的教練是誰？
此時，LLM能夠給出正確的回答（Lampard），——貌似有點實力？
但是，如果我們把人名來個變量代換（E1~E5），其他內容保持不變，LLM瞬間就降智了：
事實上，在第一次的題干里，我們并沒有說明Lampard教練叫什么名字，而答案里直接就出現了Frank。
所以LLM有可能只是碰到了原題？
于是小編用這兩道題分別測試了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。
從結果來看，上面被公開處刑的應該是ChatGPT。
而Gemini 1.0 pro和Claude 3 Sonnet甚至還不如ChatGPT，兩題全錯（雖然也給出了全名），估計是刷題的時候懈怠了。
相比之下，Ll

原文鏈接：谷歌DeepMind全新ToT基準：全面評估LLM時間推理能力