讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜
原標題:讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜
文章來源:新智元
內(nèi)容字數(shù):5575字
谷歌FACTS Grounding基準測試:評估AI模型事實準確性的新標準
1. **大模型的事實準確性問題:** 當前的大型語言模型(LLM)雖然在文本生成方面表現(xiàn)出色,但其“胡說八道”的問題依然突出。由于用戶通常無法驗證答案的準確性,評估模型的事實準確性(Factuality)成為一個重要挑戰(zhàn)。
2. **FACTS Grounding基準測試的提出:** 為了解決這一問題,谷歌研究人員推出了FACTS Grounding基準測試,旨在評估LLM在給定上下文下生成事實準確文本的能力。該基準測試的獨特之處在于:它將用戶請求和完整的上下文文檔(最多32k個token)作為輸入,要求模型僅基于上下文內(nèi)容生成回復,并確?;貜蜐M足用戶需求。
3. **數(shù)據(jù)構(gòu)建與質(zhì)量保證:** FACTS Grounding數(shù)據(jù)集包含Public集合(860條)和Private集合(859條)。為了避免數(shù)據(jù)污染和作弊,競賽期間僅公開Public集合,最終排名基于兩個集合的平均性能。數(shù)據(jù)涵蓋多個領(lǐng)域,文檔長度多樣,并經(jīng)過嚴格的人工審核,去除不符合指令的樣本和需要創(chuàng)造力/復雜推理的任務(wù)。數(shù)據(jù)來源避免了PDF文檔,以減少OCR錯誤的影響。
4. **自動化評估方法:** FACTS Grounding的自動化評估包含兩個維度:1. 驗證模型回復是否滿足用戶需求;2. 檢查回復是否完全基于給定文檔。 研究人員使用三個不同的LLM (Gemini 1.5 Pro,GPT-4,Claude 3.5 Sonnet) 進行評估,并通過選擇一致性最高的提示模板來減少模型偏差。 評估指標包括未調(diào)整的事實性得分(Unadjusted Factuality Score)和調(diào)整后的事實性得分(考慮了回復是否滿足用戶需求)。
5. **評估指標與排名:** 未調(diào)整的事實性得分計算每個LLM的準確回復百分比,并取平均值。 為了獲得最終排名,研究人員采用Condorcet方法融合六個指標,結(jié)果與僅使用最終事實性得分排名一致。 實驗結(jié)果顯示,排除無效回復會降低最終事實性得分(1%-5%),并可能略微改變模型排名。
6. **FACTS Grounding的意義:** FACTS Grounding基準測試為評估LLM的事實準確性提供了一個新的、更嚴格的標準。它強調(diào)了基于上下文生成準確回復的重要性,并有助于推動LLM朝著更可靠、更值得信賴的方向發(fā)展。 其公開的排行榜也促進了模型的改進和競爭。
7. **數(shù)據(jù)污染的考量:** 雖然數(shù)據(jù)可能存在被預(yù)訓練模型污染的風險,但研究人員認為,用戶請求和僅使用上下文內(nèi)容的指令是相對“干凈”的。 這使得FACTS Grounding基準測試在評估模型的實際應(yīng)用能力方面具有重要意義。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。