谷歌推出的評(píng)估大模型能力的基準(zhǔn)測(cè)試

產(chǎn)品名稱：FACTS Grounding
產(chǎn)品簡(jiǎn)介：FACTS Grounding是谷歌DeepMind推出的評(píng)估大型語(yǔ)言模型（LLMs）能力的基準(zhǔn)測(cè)試，衡量模型根據(jù)給定上下文生成事實(shí)準(zhǔn)確且無(wú)捏造信息的文本的能力。FACTS Grounding測(cè)試集包含1719個(gè)跨多個(gè)領(lǐng)域的示例，要求模型響應(yīng)必須基于長(zhǎng)達(dá)32000個(gè)token的文檔，涵蓋摘要、問(wèn)答和改寫(xiě)等任務(wù)。
詳細(xì)介紹：

FACTS Grounding是什么

FACTS Grounding是谷歌DeepMind推出的評(píng)估大型語(yǔ)言模型（LLMs）能力的基準(zhǔn)測(cè)試，衡量模型根據(jù)給定上下文生成事實(shí)準(zhǔn)確且無(wú)捏造信息的文本的能力。FACTS Grounding測(cè)試集包含1719個(gè)跨多個(gè)領(lǐng)域的示例，要求模型響應(yīng)必須基于長(zhǎng)達(dá)32000個(gè)token的文檔，涵蓋摘要、問(wèn)答和改寫(xiě)等任務(wù)。評(píng)估用Gemini、GPT-4o和Claude三款模型，分兩個(gè)階段：資格評(píng)估和事實(shí)準(zhǔn)確性評(píng)估，增強(qiáng)模型的信任度和應(yīng)用范圍。

FACTS Grounding的主要功能

評(píng)估語(yǔ)言模型的事實(shí)準(zhǔn)確性：評(píng)估大型語(yǔ)言模型（LLMs）在給定上下文的情況下生成事實(shí)準(zhǔn)確文本的能力。
避免“幻覺(jué)”（捏造信息）：測(cè)試模型是否能避免生成與給定文檔不相符的虛假信息，即“幻覺(jué)”。
長(zhǎng)形式響應(yīng)的評(píng)估：要求模型能夠處理長(zhǎng)達(dá)32k令牌的文檔，并基于此生成長(zhǎng)形式的響應(yīng)。
多領(lǐng)域覆蓋：數(shù)據(jù)集覆蓋金融、科技、零售、醫(yī)療和法律等多個(gè)領(lǐng)域，評(píng)估模型在不同領(lǐng)域的應(yīng)用能力。

FACTS Grounding的技術(shù)原理

長(zhǎng)形式輸入處理：評(píng)估模型處理長(zhǎng)達(dá)32k令牌的文檔的能力，要求模型能理解和合成長(zhǎng)文本信息生成響應(yīng)。
上下文相關(guān)性：模型生成與給定用戶提示和上下文文檔緊密相關(guān)的文本，確保響應(yīng)完全基于提供的文檔內(nèi)容。
自動(dòng)化評(píng)審系統(tǒng)：用自動(dòng)化評(píng)審模型（如Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet）評(píng)估生成的文本是否滿足用戶請(qǐng)求，且是否完全基于提供的文檔。
兩階段評(píng)估流程：
- 資格評(píng)估：判斷模型的響應(yīng)是否滿足用戶請(qǐng)求。
- 事實(shí)準(zhǔn)確性評(píng)估：評(píng)估響應(yīng)是否完全基于提供的文檔，即評(píng)估是否存在“幻覺(jué)”（捏造信息）。
聚合評(píng)分機(jī)制：聚合多個(gè)評(píng)審模型的結(jié)果減少單一模型的偏見(jiàn)，提高評(píng)估的準(zhǔn)確性和可靠性。

FACTS Grounding的項(xiàng)目地址

項(xiàng)目官網(wǎng)：https://deepmind.google/discover/blog/facts-grounding
技術(shù)論文：https://storage.googleapis.com/deepmind-media/FACTS/FACTS_grounding

FACTS Grounding的應(yīng)用場(chǎng)景

信息檢索與問(wèn)答系統(tǒng)：在問(wèn)答系統(tǒng)中，根據(jù)給定的文檔或上下文提供準(zhǔn)確的答案。
內(nèi)容摘要與生成：模型生成文檔的摘要，理解長(zhǎng)篇文檔并準(zhǔn)確提煉關(guān)鍵信息。
文檔改寫(xiě)與重述：在需要根據(jù)原始文檔重述或改寫(xiě)內(nèi)容的場(chǎng)景中，確保改寫(xiě)后的內(nèi)容保持事實(shí)的準(zhǔn)確性。
自動(dòng)化客戶服務(wù)：在客戶服務(wù)領(lǐng)域，提供基于特定信息或政策文檔的準(zhǔn)確回答，提高服務(wù)效率和質(zhì)量。
教育與研究：在教育領(lǐng)域，幫助學(xué)生和研究人員快速準(zhǔn)確地獲取信息，輔助學(xué)習(xí)和研究工作。

閱讀原文