国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

今日arXiv最熱NLP大模型論文：華東師大發(fā)布對(duì)話級(jí)大模型幻覺評(píng)價(jià)基準(zhǔn)DiaHalu

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布夕小瑤科技說

今日arXiv最熱NLP大模型論文：華東師大發(fā)布對(duì)話級(jí)大模型幻覺評(píng)價(jià)基準(zhǔn)DiaHalu

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：今日arXiv最熱NLP大模型論文：華東師大發(fā)布對(duì)話級(jí)大模型幻覺評(píng)價(jià)基準(zhǔn)DiaHalu
關(guān)鍵字：幻覺,基準(zhǔn),事實(shí)性,內(nèi)容,模型
文章來(lái)源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：9173字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | Tscom隨著人工智能領(lǐng)域的快速發(fā)展，大語(yǔ)言模型（LLMs）在自然語(yǔ)言處理（NLP）的多個(gè)領(lǐng)域取得了顯著的成功。這些模型通過自然語(yǔ)言生成（NLG）技術(shù)解決了許多下游任務(wù)，從而在多樣化的NLP領(lǐng)域中展現(xiàn)出其強(qiáng)大的能力。然而，隨著LLMs的廣泛應(yīng)用，其面臨的挑戰(zhàn)也日益凸顯，尤其是“幻覺”問題。所謂“幻覺”，主要是指LLMs傾向于為特定來(lái)源生成無(wú)意義或不真實(shí)的內(nèi)容。這種現(xiàn)象給現(xiàn)實(shí)世界的應(yīng)用場(chǎng)景帶來(lái)了風(fēng)險(xiǎn)，因?yàn)樗赡軐?dǎo)致誤導(dǎo)性信息的傳播和理解上的混淆。
盡管存在這些挑戰(zhàn)，研究人員提出了許多用于檢測(cè)LLMs幻覺的基準(zhǔn)（benchmarks）。然而，現(xiàn)有的基準(zhǔn)存在一些問題：它們通常是通過人為設(shè)計(jì)的觸發(fā)提示詞來(lái)誘導(dǎo)LLMs產(chǎn)生幻覺，而不是LLMs在日常使用中自然生成的；大多數(shù)基準(zhǔn)僅關(guān)注事實(shí)性幻覺，忽視了忠實(shí)性幻覺；并且它們大多只集中在句子級(jí)和段落級(jí)的幻覺檢測(cè)，而對(duì)話級(jí)的幻覺檢測(cè)同樣重要，但在以往的研究中并未提及。
為了應(yīng)對(duì)這些挑戰(zhàn)，本文提出了一個(gè)新的對(duì)話級(jí)幻覺評(píng)估基準(zhǔn)（DiaHalu），旨在通過專業(yè)學(xué)者的標(biāo)注，覆蓋四個(gè)常見的多輪對(duì)話領(lǐng)域和五種幻覺子類型，從而為進(jìn)一步的研究

原文鏈接：今日arXiv最熱NLP大模型論文：華東師大發(fā)布對(duì)話級(jí)大模型幻覺評(píng)價(jià)基準(zhǔn)DiaHalu

聯(lián)系作者

文章來(lái)源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：更快的AI前沿，更深的行業(yè)洞見。聚集25萬(wàn)AI一線開發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)湫袠I(yè)嗅覺與報(bào)道深度。

閱讀原文