原標題:讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜
文章來源:新智元
內容字數:5575字
谷歌FACTS Grounding基準測試:評估AI模型事實準確性的新標準
1. **大模型的事實準確性問題:** 當前的大型語言模型(LLM)雖然在文本生成方面表現出色,但其“胡說八道”的問題依然突出。由于用戶通常無法驗證答案的準確性,評估模型的事實準確性(Factuality)成為一個重要挑戰。
2. **FACTS Grounding基準測試的提出:** 為了解決這一問題,谷歌研究人員推出了FACTS Grounding基準測試,旨在評估LLM在給定上下文下生成事實準確文本的能力。該基準測試的獨特之處在于:它將用戶請求和完整的上下文文檔(最多32k個token)作為輸入,要求模型僅基于上下文內容生成回復,并確保回復滿足用戶需求。
3. **數據構建與質量保證:** FACTS Grounding數據集包含Public集合(860條)和Private集合(859條)。為了避免數據污染和作弊,競賽期間僅公開Public集合,最終排名基于兩個集合的平均性能。數據涵蓋多個領域,文檔長度多樣,并經過嚴格的人工審核,去除不符合指令的樣本和需要創造力/復雜推理的任務。數據來源避免了PDF文檔,以減少OCR錯誤的影響。
4. **自動化評估方法:** FACTS Grounding的自動化評估包含兩個維度:1. 驗證模型回復是否滿足用戶需求;2. 檢查回復是否完全基于給定文檔。 研究人員使用三個不同的LLM (Gemini 1.5 Pro,GPT-4,Claude 3.5 Sonnet) 進行評估,并通過選擇一致性最高的提示模板來減少模型偏差。 評估指標包括未調整的事實性得分(Unadjusted Factuality Score)和調整后的事實性得分(考慮了回復是否滿足用戶需求)。
5. **評估指標與排名:** 未調整的事實性得分計算每個LLM的準確回復百分比,并取平均值。 為了獲得最終排名,研究人員采用Condorcet方法融合六個指標,結果與僅使用最終事實性得分排名一致。 實驗結果顯示,排除無效回復會降低最終事實性得分(1%-5%),并可能略微改變模型排名。
6. **FACTS Grounding的意義:** FACTS Grounding基準測試為評估LLM的事實準確性提供了一個新的、更嚴格的標準。它強調了基于上下文生成準確回復的重要性,并有助于推動LLM朝著更可靠、更值得信賴的方向發展。 其公開的排行榜也促進了模型的改進和競爭。
7. **數據污染的考量:** 雖然數據可能存在被預訓練模型污染的風險,但研究人員認為,用戶請求和僅使用上下文內容的指令是相對“干凈”的。 這使得FACTS Grounding基準測試在評估模型的實際應用能力方面具有重要意義。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。