00后國人論文登Nature，大模型對人類可靠性降低

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：00后國人論文登Nature，大模型對人類可靠性降低
關鍵字：模型,人類,任務,難度,論文
文章來源：量子位
內容字數：0字

內容摘要：

一水發自凹非寺量子位 | 公眾號 QbitAI00后國人一作登上Nature，這篇大模型論文引起熱議。
簡單來說，論文發現：更大且更遵循指令的大模型也變得更不可靠了，某些情況下GPT-4在回答可靠性上還不如GPT-3。
與早期模型相比，有更多算力和人類反饋加持的最新模型，在回答可靠性上實際愈加惡化了。
結論一出，立即引來20多萬網友圍觀：
在Reddit論壇也引發圍觀議論。
這讓人不禁想起，一大堆專家/博士級別的模型還不會“9.9和9.11”哪個大這樣的簡單問題。
關于這個現象，論文提到這也反映出，模型的表現與人類對難度的預期不符。
換句話說，“LLMs在用戶預料不到的地方既成功又（更危險地）失敗”。
Ilya Sutskever2022年曾預測：
也許隨著時間的推移，這種差異會減少。
然而這篇論文發現情況并非如此。不止GPT，LLaMA和BLOOM系列，甚至OpenAI新的o1模型和Claude-3.5-Sonnet也在可靠性方面令人擔憂。
更重要的是，論文還發現依靠人類監督來糾正錯誤的做法也不管用。
有網友認為，雖然較大的模型可能會帶來可靠性問題，但它們也提供了前所未有的功能。

原文鏈接：00后國人論文登Nature，大模型對人類可靠性降低