87.8%準確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動評估模型FLAMe

AIGC動態(tài)歡迎閱讀
原標題:87.8%準確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動評估模型FLAMe
關鍵字:模型,數(shù)據(jù),任務,指令,性能
文章來源:新智元
內容字數(shù):0字
內容摘要:
新智元報道編輯:喬楊 耳朵
【新智元導讀】谷歌DeepMind推出LLM自動評估模型FLAMe系列,F(xiàn)LAMe-RM-24B模型在RewardBench上表現(xiàn)卓越,以87.8%準確率領先GPT-4o。大語言模型都卷起來了,模型越做越大,token越來越多,輸出越來越長。
那么問題來了,如何有效地評估大語言模型的長篇大論呢?要是輸出長度長了但胡言亂語輸出質量差,又臭又長,豈不是白搭?
首先能想到的方法就是人工評估。人工評估雖然對于評價模型性能至關重要,但受到主觀性、評估者之間的差異性以及廣泛評估的高成本的限制。
考慮到這些因素,谷歌DeepMind研究團隊提出了自動評估解決方案FLAMe。論文地址:https://arxiv.org/abs/2407.10817
模型本身在經歷多規(guī)模指令任務調整后,可以遵循一套新的指令,使它們適合用作模型輸出的自動評估器。
一方面,為了使LLM自動評分更加合理、準確并與人類偏好保持一致,對人類判斷的數(shù)據(jù)收集極其重要。
然而,獲得這些判斷數(shù)據(jù)既昂貴又耗時。從以前的研究中收集現(xiàn)有的人類評估貌似可行,但面臨著缺乏標準、文檔數(shù)據(jù)不充分、數(shù)據(jù)隱私和專有權等問
原文鏈接:87.8%準確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動評估模型FLAMe
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號