讓「幻覺」無處遁形！谷歌DeepMind全新基準，三代Gemini同臺霸榜

原標題：讓「幻覺」無處遁形！谷歌DeepMind全新基準，三代Gemini同臺霸榜
文章來源：新智元
內(nèi)容字數(shù)：5575字

谷歌FACTS Grounding基準測試：評估AI模型事實準確性的新標準

1. **大模型的事實準確性問題:** 當前的大型語言模型(LLM)雖然在文本生成方面表現(xiàn)出色，但其“胡說八道”的問題依然突出。由于用戶通常無法驗證答案的準確性，評估模型的事實準確性(Factuality)成為一個重要挑戰(zhàn)。

2. **FACTS Grounding基準測試的提出:** 為了解決這一問題，谷歌研究人員推出了FACTS Grounding基準測試，旨在評估LLM在給定上下文下生成事實準確文本的能力。該基準測試的獨特之處在于：它將用戶請求和完整的上下文文檔(最多32k個token)作為輸入，要求模型僅基于上下文內(nèi)容生成回復，并確?；貜蜐M足用戶需求。

3. **數(shù)據(jù)構(gòu)建與質(zhì)量保證:** FACTS Grounding數(shù)據(jù)集包含Public集合(860條)和Private集合(859條)。為了避免數(shù)據(jù)污染和作弊，競賽期間僅公開Public集合，最終排名基于兩個集合的平均性能。數(shù)據(jù)涵蓋多個領(lǐng)域，文檔長度多樣，并經(jīng)過嚴格的人工審核，去除不符合指令的樣本和需要創(chuàng)造力/復雜推理的任務(wù)。數(shù)據(jù)來源避免了PDF文檔，以減少OCR錯誤的影響。

4. **自動化評估方法:** FACTS Grounding的自動化評估包含兩個維度：1. 驗證模型回復是否滿足用戶需求；2. 檢查回復是否完全基于給定文檔。研究人員使用三個不同的LLM (Gemini 1.5 Pro,GPT-4,Claude 3.5 Sonnet) 進行評估，并通過選擇一致性最高的提示模板來減少模型偏差。評估指標包括未調(diào)整的事實性得分(Unadjusted Factuality Score)和調(diào)整后的事實性得分(考慮了回復是否滿足用戶需求)。

5. **評估指標與排名:** 未調(diào)整的事實性得分計算每個LLM的準確回復百分比，并取平均值。為了獲得最終排名，研究人員采用Condorcet方法融合六個指標，結(jié)果與僅使用最終事實性得分排名一致。實驗結(jié)果顯示，排除無效回復會降低最終事實性得分(1%-5%)，并可能略微改變模型排名。

6. **FACTS Grounding的意義:** FACTS Grounding基準測試為評估LLM的事實準確性提供了一個新的、更嚴格的標準。它強調(diào)了基于上下文生成準確回復的重要性，并有助于推動LLM朝著更可靠、更值得信賴的方向發(fā)展。其公開的排行榜也促進了模型的改進和競爭。

7. **數(shù)據(jù)污染的考量:** 雖然數(shù)據(jù)可能存在被預(yù)訓練模型污染的風險，但研究人員認為，用戶請求和僅使用上下文內(nèi)容的指令是相對“干凈”的。這使得FACTS Grounding基準測試在評估模型的實際應(yīng)用能力方面具有重要意義。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響，領(lǐng)航中國新智能時代。

閱讀原文

# AIGC動態(tài)# AI性能評測 # Gemini基準測試 # 人工智能評估標準 # 多模態(tài)AI基準 # 大型語言模型幻覺

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

讓「幻覺」無處遁形！谷歌DeepMind全新基準，三代Gemini同臺霸榜

谷歌FACTS Grounding基準測試：評估AI模型事實準確性的新標準

聯(lián)系作者

最高工資322萬！OpenAI開招機器人工程師

4納米芯片在美量產(chǎn)，島內(nèi)憂技術(shù)外流

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

讓「幻覺」無處遁形！谷歌DeepMind全新基準，三代Gemini同臺霸榜

谷歌FACTS Grounding基準測試：評估AI模型事實準確性的新標準

聯(lián)系作者

最高工資322萬！OpenAI開招機器人工程師

4納米芯片在美量產(chǎn)，島內(nèi)憂技術(shù)外流

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

讓「幻覺」無處遁形！谷歌DeepMind全新基準，三代Gemini同臺霸榜

4納米芯片在美量產(chǎn)，島內(nèi)憂技術(shù)外流

玩虛擬模特？