GPT-4變笨！回答新問題性能太差，想保持水準只能不斷訓練新模型

AIGC動態(tài)2年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：GPT-4變笨！回答新問題性能太差，想保持水準只能不斷訓練新模型
關鍵字：模型,數(shù)據(jù),樣本,任務,示例
文章來源：新智元
內容字數(shù)：4851字

內容摘要：

新智元報道編輯：潤
【新智元導讀】最近由UCSC的研究人員發(fā)表論文，證明大模型的零樣本或者少樣本能力，幾乎都是來源于對于訓練數(shù)據(jù)的記憶。昨天，一篇系統(tǒng)性地研究了GPT-4為什么會「降智」的論文，引發(fā)了AI圈的廣泛討論。
隨著大家對GPT-4使用得越來越頻繁，用戶每過一段時間都會集中反應，GPT-4好像又變笨了。
最近的情況是，如果用戶不小心和GPT-4說現(xiàn)在是12月份，GPT-4的輸出的內容就會明顯變少。
有一位用戶專門做了一個測試，分別告訴GPT-4現(xiàn)在是5月份和12月份，然后對比輸出結果，發(fā)現(xiàn)12月份的結果比5月份差了不少。
大家討論都覺得是說GPT-4會給自己放寒假，看到12月份就不想干活了。
但是如果放在這篇論文中來看，作者認為，最主要的原因是大模型有一個現(xiàn)在看來幾乎是無解的缺陷——缺乏持續(xù)學習和進化能力。
論文地址：https://arxiv.org/abs/2312.16337
我們發(fā)現(xiàn)在LLM在訓練數(shù)據(jù)創(chuàng)建日期之前的數(shù)據(jù)集上的表現(xiàn)，要明顯好于在訓練日期之后發(fā)布的數(shù)據(jù)集的表現(xiàn)。
不論是零樣本還是多樣本的測試中，LLM都會呈現(xiàn)出這種情況。
論文還指出，LLM在他們以前真正「

原文鏈接：GPT-4變笨！回答新問題性能太差，想保持水準只能不斷訓練新模型