To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻覺
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻覺
關(guān)鍵字:不確定性,方法,認(rèn)知,模型,概率
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:庸庸 喬楊
【新智元導(dǎo)讀】DeepMind發(fā)表了一篇名為「To Believe or Not to Believe Your LLM」的新論文,探討了LLM的不確定性量化問題,通過「迭代提示」成功將LLM的認(rèn)知不確定性和偶然不確定性解耦。研究還將新推導(dǎo)出的幻覺檢測算法應(yīng)用于Gemini,結(jié)果表明,與基線方法相比,該方法能有效檢測幻覺。大語言模型產(chǎn)生幻覺、胡說八道的問題被詬病,已經(jīng)不是一天兩天了。
前有ChatGPT編造法律案件,后有谷歌搜索建議披薩放膠水。
就連號(hào)稱模型更安全、幻覺更少的Claude系列,在Reddit上也能看到不少吐槽。
LLM輸出虛假信息的問題,似乎并不能在短時(shí)間內(nèi)徹底解決。
這就給很多場景下的應(yīng)用帶來了巨大的障礙,尤其是法律、醫(yī)療、學(xué)術(shù)這樣比較嚴(yán)謹(jǐn)?shù)闹R(shí)領(lǐng)域。如果答案有錯(cuò),還不如不用。
那么能不能有一種方法,至少為LLM的輸出劃定一個(gè)置信區(qū)間呢?
6月5日,DeepMind發(fā)表了一篇名為「To Believe or Not to Believe Your LLM」,就開始著手解決這個(gè)問題。
如果無法LLM堅(jiān)持輸出真實(shí)信息,知道它什么時(shí)候在胡說
原文鏈接:To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻覺
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。