AIGC動態歡迎閱讀
原標題:今日arXiv最熱NLP大模型論文:華東師大發布對話級大模型幻覺評價基準DiaHalu
關鍵字:幻覺,基準,事實性,內容,模型
文章來源:夕小瑤科技說
內容字數:9173字
內容摘要:
夕小瑤科技說 原創作者 | Tscom隨著人工智能領域的快速發展,大語言模型(LLMs)在自然語言處理(NLP)的多個領域取得了顯著的成功。這些模型通過自然語言生成(NLG)技術解決了許多下游任務,從而在多樣化的NLP領域中展現出其強大的能力。然而,隨著LLMs的廣泛應用,其面臨的挑戰也日益凸顯,尤其是“幻覺”問題。所謂“幻覺”,主要是指LLMs傾向于為特定來源生成無意義或不真實的內容。這種現象給現實世界的應用場景帶來了風險,因為它可能導致誤導性信息的傳播和理解上的混淆。
盡管存在這些挑戰,研究人員提出了許多用于檢測LLMs幻覺的基準(benchmarks)。然而,現有的基準存在一些問題:它們通常是通過人為設計的觸發提示詞來誘導LLMs產生幻覺,而不是LLMs在日常使用中自然生成的;大多數基準僅關注事實性幻覺,忽視了忠實性幻覺;并且它們大多只集中在句子級和段落級的幻覺檢測,而對話級的幻覺檢測同樣重要,但在以往的研究中并未提及。
為了應對這些挑戰,本文提出了一個新的對話級幻覺評估基準(DiaHalu),旨在通過專業學者的標注,覆蓋四個常見的多輪對話領域和五種幻覺子類型,從而為進一步的研究
原文鏈接:今日arXiv最熱NLP大模型論文:華東師大發布對話級大模型幻覺評價基準DiaHalu
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...