消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型
關鍵字：模型,研究人員,選擇性,答案,序列
文章來源：新智元
內容字數：4720字

內容摘要：

新智元報道編輯：潤
【新智元導讀】谷歌和威斯康星麥迪遜大學的研究人員推出了一個讓LLM給自己輸出打分的選擇性預測系統，通過軟提示微調和自評估學習，取得了比10倍規模大的模型還要好的成績，為開發下一代可靠的LLM提供了一個非常好的方向。大模型的「幻覺」問題馬上要有解了？
威斯康星麥迪遜大學和谷歌的研究人員最近開發了一個名為ASPIRE的系統，可以讓大模型對自己的輸出給出評分。
如果用戶看到模型的生成的結果評分不高，就能意識到這個回復可能是幻覺。
如果系統可以進一步篩選評分的結果進行輸出，比如如果評分過低，大模型就可能生成「我沒法回答這個問」，從而有望最大限度的改善幻覺問題。
論文地址：https://aclanthology.org/2023.findings-emnlp.345.pdf
ASPIRE能讓LLM輸出答案以及答案的置信度得分。
研究人員的實驗結果表明，ASPIRE在各種QA數據集（例如 CoQA 基準）上顯著優于傳統的選擇性預測方法。
讓LLM不僅要回答問題，還要評估這些答案。
在選擇性預測的基準測試上，研究人員通過ASPIRE系統取得了超過10倍規模的模型的成績。
就

原文鏈接：消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型