AIGC動態歡迎閱讀
原標題:GPT-4、Gemini同時被曝重大缺陷,邏輯推理大翻車!DeepMind上交校友團隊發現LLM嚴重降智
關鍵字:順序,問題,前提,模型,研究人員
文章來源:新智元
內容字數:10483字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】谷歌DeepMind最新研究發現,問題中前提條件的呈現順序,對于大模型的推理性能有著決定性的影響,打亂順序能讓模型表現下降30%。最近,谷歌DeepMind和斯坦福的研究人員發現:大模型在處理邏輯推理任務時,問題中信息呈現的順序對模型的表現有著決定性的影響。
論文地址:https://arxiv.org/abs/2402.08939
具體來說,當信息按照邏輯上的自然順序排列時,模型的表現會更好。這一發現不僅適用于一般的邏輯推理問題,對于數學問題也同樣有效。
比如,如果某個證明任務的條件是:
1. 如果A,那么B;
2. 如果B,那么C;
3. A為真。
要求大模型證明C為真,如果條件按照1,2,3的順序呈現,那么大模型的成功率會比2,1,3的條件呈現順序高出很多。
所以,以后用大模型,言簡意賅,符合邏輯地提出問題能讓它性能更強。
上圖展示了一個失敗的案例,GPT-4,Gemini Pro,GPT-3.5在改變相關規則的順序后都未能成功生成證明。
上圖可以看出,對于當前主流的幾個大模型,改變前提的敘述順序都會導致性能大幅下降。
有趣的是,谷歌的新型
原文鏈接:GPT-4、Gemini同時被曝重大缺陷,邏輯推理大翻車!DeepMind上交校友團隊發現LLM嚴重降智
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。