AIGC動態歡迎閱讀
原標題:答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
關鍵字:報告,任務,團隊,框架,模型
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文第一作者和通訊作者均來自上海算法創新研究院。其中,通訊作者李志宇博士畢業于中國人民大學計算機專業,并曾在阿里巴巴、小紅書等互聯網公司從事算法落地與研究工作,曾參與了包括千億級商品知識圖譜、用戶圖譜和輿情圖譜的研發工作,累計發表論文四十余篇。李志宇當前在上海算法創新研究院大模型部門(由熊飛宇博士帶領)負責整體的技術研發工作。研究院主頁:https://www.iaar.ac.cn/
大語言模型(LLM)的迅速發展,引發了關于如何評估其公平性和可靠性的熱議。
盡管現有的評估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各種 Benchmark 推動了行業進步,但專注于這些評估框架核心組件可信度或可靠性度量的團隊卻為
原文鏈接:答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...