+大模型打敗幻覺!斯坦福WikiChat性能碾壓GPT-4,準(zhǔn)確率高達(dá)97.3%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:+大模型打敗幻覺!斯坦福WikiChat性能碾壓GPT-4,準(zhǔn)確率高達(dá)97.3%
關(guān)鍵字:幻覺,信息,時(shí)間,問題,事實(shí)性
文章來源:新智元
內(nèi)容字?jǐn)?shù):7783字
內(nèi)容摘要:
新智元報(bào)道編輯:alan 桃子
【新智元導(dǎo)讀】大模型固有的幻覺問題嚴(yán)重影響了LLM的表現(xiàn)。斯坦福最新研究利用數(shù)據(jù)訓(xùn)練大模型,得到的WikiChat成為首個(gè)幾乎不產(chǎn)生幻覺的機(jī)器人。大語言模型的幻覺問題被解決了!
近日,來自斯坦福的研究人員發(fā)布了WikiChat——被稱為首個(gè)幾乎不產(chǎn)生幻覺的機(jī)器人!
論文發(fā)表在EMNLP 2023,并且在Github上開源了代碼:
論文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
項(xiàng)目代碼:https://github.com/stanford-oval/WikiChat
作者表示自己的最佳模型在新的基準(zhǔn)測試中獲得了97.3%的事實(shí)準(zhǔn)確性,而相比之下,GPT-4的得分僅為66.1%。
在「recent」和「tail」兩個(gè)知識(shí)子集中,這個(gè)差距甚至更大。
另外,作者還發(fā)現(xiàn)了檢索增強(qiáng)生成(RAG)的幾個(gè)缺點(diǎn),并添加了幾個(gè)重要步驟,以進(jìn)一步減輕幻覺,并改進(jìn)「對話性」指標(biāo)。
通過這些優(yōu)化,WikiChat在事實(shí)性方面比微調(diào)后的SOTA RAG模型Atlas高出8.5%,
在相關(guān)性、信
原文鏈接:+大模型打敗幻覺!斯坦福WikiChat性能碾壓GPT-4,準(zhǔn)確率高達(dá)97.3%
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。