答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思
關鍵字：報告,任務,團隊,框架,模型
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文第一作者和通訊作者均來自上海算法創新研究院。其中，通訊作者李志宇博士畢業于中國人民大學計算機專業，并曾在阿里巴巴、小紅書等互聯網公司從事算法落地與研究工作，曾參與了包括千億級商品知識圖譜、用戶圖譜和輿情圖譜的研發工作，累計發表論文四十余篇。李志宇當前在上海算法創新研究院大模型部門（由熊飛宇博士帶領）負責整體的技術研發工作。研究院主頁：https://www.iaar.ac.cn/
大語言模型（LLM）的迅速發展，引發了關于如何評估其公平性和可靠性的熱議。
盡管現有的評估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各種 Benchmark 推動了行業進步，但專注于這些評估框架核心組件可信度或可靠性度量的團隊卻為

原文鏈接：答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思