<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜

        AIGC動態6個月前發布 新智元
        303 0 0

        讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜

        原標題:讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜
        文章來源:新智元
        內容字數:5575字

        谷歌FACTS Grounding基準測試:評估AI模型事實準確性的新標準

        1. **大模型的事實準確性問題:** 當前的大型語言模型(LLM)雖然在文本生成方面表現出色,但其“胡說八道”的問題依然突出。由于用戶通常無法驗證答案的準確性,評估模型的事實準確性(Factuality)成為一個重要挑戰。

        2. **FACTS Grounding基準測試的提出:** 為了解決這一問題,谷歌研究人員推出了FACTS Grounding基準測試,旨在評估LLM在給定上下文下生成事實準確文本的能力。該基準測試的獨特之處在于:它將用戶請求和完整的上下文文檔(最多32k個token)作為輸入,要求模型僅基于上下文內容生成回復,并確保回復滿足用戶需求。

        3. **數據構建與質量保證:** FACTS Grounding數據集包含Public集合(860條)和Private集合(859條)。為了避免數據污染和作弊,競賽期間僅公開Public集合,最終排名基于兩個集合的平均性能。數據涵蓋多個領域,文檔長度多樣,并經過嚴格的人工審核,去除不符合指令的樣本和需要創造力/復雜推理的任務。數據來源避免了PDF文檔,以減少OCR錯誤的影響。

        4. **自動化評估方法:** FACTS Grounding的自動化評估包含兩個維度:1. 驗證模型回復是否滿足用戶需求;2. 檢查回復是否完全基于給定文檔。 研究人員使用三個不同的LLM (Gemini 1.5 Pro,GPT-4,Claude 3.5 Sonnet) 進行評估,并通過選擇一致性最高的提示模板來減少模型偏差。 評估指標包括未調整的事實性得分(Unadjusted Factuality Score)和調整后的事實性得分(考慮了回復是否滿足用戶需求)。

        5. **評估指標與排名:** 未調整的事實性得分計算每個LLM的準確回復百分比,并取平均值。 為了獲得最終排名,研究人員采用Condorcet方法融合六個指標,結果與僅使用最終事實性得分排名一致。 實驗結果顯示,排除無效回復會降低最終事實性得分(1%-5%),并可能略微改變模型排名。

        6. **FACTS Grounding的意義:** FACTS Grounding基準測試為評估LLM的事實準確性提供了一個新的、更嚴格的標準。它強調了基于上下文生成準確回復的重要性,并有助于推動LLM朝著更可靠、更值得信賴的方向發展。 其公開的排行榜也促進了模型的改進和競爭。

        7. **數據污染的考量:** 雖然數據可能存在被預訓練模型污染的風險,但研究人員認為,用戶請求和僅使用上下文內容的指令是相對“干凈”的。 這使得FACTS Grounding基準測試在評估模型的實際應用能力方面具有重要意義。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲Av无码精品色午夜| 可以免费观看一级毛片黄a| 日韩免费福利视频| 免费人成视频在线播放| 中文字幕精品无码亚洲字| 国产精品偷伦视频免费观看了| 亚洲香蕉成人AV网站在线观看| 国产啪精品视频网站免费尤物 | aa在线免费观看| 亚洲色中文字幕无码AV| 亚洲午夜精品久久久久久浪潮 | 国产精品亚洲专区无码牛牛| 亚洲日韩涩涩成人午夜私人影院| 永久免费无码网站在线观看| 香蕉视频免费在线播放| 久久久久久亚洲AV无码专区| 全免费一级毛片在线播放| 野花高清在线电影观看免费视频| 东北美女野外bbwbbw免费| 亚洲日韩国产精品乱-久| 亚洲成人激情在线| 国产日产亚洲系列最新| 亚洲日韩国产精品第一页一区| 好看的电影网站亚洲一区| 国产免费啪嗒啪嗒视频看看| 天天影院成人免费观看| 91在线免费观看| 人妻18毛片a级毛片免费看| 7777久久亚洲中文字幕| 亚洲精品亚洲人成在线观看麻豆| 国产亚洲精品a在线观看| 亚洲2022国产成人精品无码区| 亚洲人成人77777网站不卡| 亚洲成熟xxxxx电影| 国产成人亚洲综合a∨| 国产成人va亚洲电影| 日韩免费的视频在线观看香蕉| 98精品全国免费观看视频| 99精品国产成人a∨免费看| 久久午夜免费视频| 男女免费观看在线爽爽爽视频|