開源模型「幻覺」更嚴(yán)重,這是三元組粒度的幻覺檢測(cè)套件
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:開源模型「幻覺」更嚴(yán)重,這是三元組粒度的幻覺檢測(cè)套件
關(guān)鍵字:幻覺,模型,檢測(cè)器,聲明,報(bào)告
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8855字
內(nèi)容摘要:機(jī)器之心專欄機(jī)器之心編輯部BSChecker:細(xì)粒度大模型幻覺檢測(cè)工具與基準(zhǔn)測(cè)試排行榜大模型長期以來一直存在一個(gè)致命的問題,即生成幻覺。由于數(shù)據(jù)集的復(fù)雜性,難免會(huì)包含過時(shí)和錯(cuò)誤的信息,這使得輸出質(zhì)量面臨著極大的挑戰(zhàn)。過多的重復(fù)信息還可能導(dǎo)致大型模型產(chǎn)生偏見,這也算是一種形式的幻覺。如何檢測(cè)和有效緩解大模型的生成幻覺問題一直是學(xué)術(shù)界的熱門課題。近日,亞馬遜上海人工智能研究院推出細(xì)粒度大模型幻覺檢測(cè)工具 BSChecker,包含如下重要特性:細(xì)粒度幻覺檢測(cè)框架,對(duì)大模型輸出文本進(jìn)行三元組粒度的幻覺檢測(cè)。幻覺檢測(cè)基準(zhǔn)測(cè)試集,包含三種任務(wù)場(chǎng)景,滿足用戶的不同需求。兩個(gè)基準(zhǔn)測(cè)試排行榜,目前涵蓋15個(gè)主流大模型的幻覺檢測(cè)結(jié)果。另外,BSChecker的作者們?cè)贕emini推出后也很快做了自動(dòng)檢測(cè)的幻覺測(cè)試。幻覺檢測(cè)框架示意圖項(xiàng)目地址:https://github.com/amazon-science/…
原文鏈接:點(diǎn)此閱讀原文:開源模型「幻覺」更嚴(yán)重,這是三元組粒度的幻覺檢測(cè)套件
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)