<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜

        AIGC動態(tài)8個月前發(fā)布 新智元
        308 0 0

        讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜

        原標題:讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜
        文章來源:新智元
        內(nèi)容字數(shù):5575字

        谷歌FACTS Grounding基準測試:評估AI模型事實準確性的新標準

        1. **大模型的事實準確性問題:** 當前的大型語言模型(LLM)雖然在文本生成方面表現(xiàn)出色,但其“胡說八道”的問題依然突出。由于用戶通常無法驗證答案的準確性,評估模型的事實準確性(Factuality)成為一個重要挑戰(zhàn)。

        2. **FACTS Grounding基準測試的提出:** 為了解決這一問題,谷歌研究人員推出了FACTS Grounding基準測試,旨在評估LLM在給定上下文下生成事實準確文本的能力。該基準測試的獨特之處在于:它將用戶請求和完整的上下文文檔(最多32k個token)作為輸入,要求模型僅基于上下文內(nèi)容生成回復,并確?;貜蜐M足用戶需求。

        3. **數(shù)據(jù)構(gòu)建與質(zhì)量保證:** FACTS Grounding數(shù)據(jù)集包含Public集合(860條)和Private集合(859條)。為了避免數(shù)據(jù)污染和作弊,競賽期間僅公開Public集合,最終排名基于兩個集合的平均性能。數(shù)據(jù)涵蓋多個領(lǐng)域,文檔長度多樣,并經(jīng)過嚴格的人工審核,去除不符合指令的樣本和需要創(chuàng)造力/復雜推理的任務(wù)。數(shù)據(jù)來源避免了PDF文檔,以減少OCR錯誤的影響。

        4. **自動化評估方法:** FACTS Grounding的自動化評估包含兩個維度:1. 驗證模型回復是否滿足用戶需求;2. 檢查回復是否完全基于給定文檔。 研究人員使用三個不同的LLM (Gemini 1.5 Pro,GPT-4,Claude 3.5 Sonnet) 進行評估,并通過選擇一致性最高的提示模板來減少模型偏差。 評估指標包括未調(diào)整的事實性得分(Unadjusted Factuality Score)和調(diào)整后的事實性得分(考慮了回復是否滿足用戶需求)。

        5. **評估指標與排名:** 未調(diào)整的事實性得分計算每個LLM的準確回復百分比,并取平均值。 為了獲得最終排名,研究人員采用Condorcet方法融合六個指標,結(jié)果與僅使用最終事實性得分排名一致。 實驗結(jié)果顯示,排除無效回復會降低最終事實性得分(1%-5%),并可能略微改變模型排名。

        6. **FACTS Grounding的意義:** FACTS Grounding基準測試為評估LLM的事實準確性提供了一個新的、更嚴格的標準。它強調(diào)了基于上下文生成準確回復的重要性,并有助于推動LLM朝著更可靠、更值得信賴的方向發(fā)展。 其公開的排行榜也促進了模型的改進和競爭。

        7. **數(shù)據(jù)污染的考量:** 雖然數(shù)據(jù)可能存在被預(yù)訓練模型污染的風險,但研究人員認為,用戶請求和僅使用上下文內(nèi)容的指令是相對“干凈”的。 這使得FACTS Grounding基準測試在評估模型的實際應(yīng)用能力方面具有重要意義。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲高清在线播放| 日本免费人成视频在线观看| a级毛片毛片免费观看久潮| 在线jyzzjyzz免费视频| 久久精品亚洲AV久久久无码| 一二三区免费视频| 亚洲日韩小电影在线观看| 99久久久精品免费观看国产| 久久亚洲精品中文字幕三区| 一级做a爰全过程免费视频| 亚洲男人的天堂在线播放| 99在线精品免费视频九九视| 国产在线观看免费av站| 亚洲日韩VA无码中文字幕| 国产精品亚洲自在线播放页码| 九九久久精品国产免费看小说| 亚洲精品午夜久久久伊人| 91手机看片国产永久免费| 亚洲成色在线综合网站| 一级毛片免费观看不卡的| 亚洲精品无码午夜福利中文字幕 | 国产成人精品无码免费看| 亚洲精品蜜夜内射| 一级黄色片免费观看| 亚洲日韩av无码| 日韩精品视频在线观看免费| 亚洲AV乱码久久精品蜜桃| 99亚偷拍自图区亚洲| 亚洲国产一区在线| 亚洲另类小说图片| 日本高清免费中文在线看| 久青草视频97国内免费影视| 亚洲人成精品久久久久| 亚洲成AV人片在线观看无码| 亚洲今日精彩视频| 亚洲视频一区二区三区| 日韩在线免费电影| 2022免费国产精品福利在线 | 亚洲男人第一无码aⅴ网站| 亚洲国产精品综合久久2007| 青娱乐免费在线视频|