+大模型打敗幻覺！斯坦福WikiChat性能碾壓GPT-4，準(zhǔn)確率高達(dá)97.3%

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

維基百科+大模型打敗幻覺！斯坦福WikiChat性能碾壓GPT-4，準(zhǔn)確率高達(dá)97.3%

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：+大模型打敗幻覺！斯坦福WikiChat性能碾壓GPT-4，準(zhǔn)確率高達(dá)97.3%
關(guān)鍵字：幻覺,信息,時(shí)間,問題,事實(shí)性
文章來源：新智元
內(nèi)容字?jǐn)?shù)：7783字

內(nèi)容摘要：

新智元報(bào)道編輯：alan 桃子
【新智元導(dǎo)讀】大模型固有的幻覺問題嚴(yán)重影響了LLM的表現(xiàn)。斯坦福最新研究利用數(shù)據(jù)訓(xùn)練大模型，得到的WikiChat成為首個(gè)幾乎不產(chǎn)生幻覺的機(jī)器人。大語言模型的幻覺問題被解決了！
近日，來自斯坦福的研究人員發(fā)布了WikiChat——被稱為首個(gè)幾乎不產(chǎn)生幻覺的機(jī)器人！
論文發(fā)表在EMNLP 2023，并且在Github上開源了代碼：
論文地址：https://aclanthology.org/2023.findings-emnlp.157.pdf
項(xiàng)目代碼：https://github.com/stanford-oval/WikiChat
作者表示自己的最佳模型在新的基準(zhǔn)測試中獲得了97.3%的事實(shí)準(zhǔn)確性，而相比之下，GPT-4的得分僅為66.1%。
在「recent」和「tail」兩個(gè)知識(shí)子集中，這個(gè)差距甚至更大。
另外，作者還發(fā)現(xiàn)了檢索增強(qiáng)生成（RAG）的幾個(gè)缺點(diǎn)，并添加了幾個(gè)重要步驟，以進(jìn)一步減輕幻覺，并改進(jìn)「對話性」指標(biāo)。
通過這些優(yōu)化，WikiChat在事實(shí)性方面比微調(diào)后的SOTA RAG模型Atlas高出8.5%，
在相關(guān)性、信

原文鏈接：+大模型打敗幻覺！斯坦福WikiChat性能碾壓GPT-4，準(zhǔn)確率高達(dá)97.3%

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺(tái)，致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國新智能時(shí)代。

閱讀原文