87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評估模型FLAMe
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評估模型FLAMe
關(guān)鍵字:模型,數(shù)據(jù),任務(wù),指令,性能
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:喬楊 耳朵
【新智元導(dǎo)讀】谷歌DeepMind推出LLM自動(dòng)評估模型FLAMe系列,F(xiàn)LAMe-RM-24B模型在RewardBench上表現(xiàn)卓越,以87.8%準(zhǔn)確率領(lǐng)先GPT-4o。大語言模型都卷起來了,模型越做越大,token越來越多,輸出越來越長。
那么問題來了,如何有效地評估大語言模型的長篇大論呢?要是輸出長度長了但胡言亂語輸出質(zhì)量差,又臭又長,豈不是白搭?
首先能想到的方法就是人工評估。人工評估雖然對于評價(jià)模型性能至關(guān)重要,但受到主觀性、評估者之間的差異性以及廣泛評估的高成本的限制。
考慮到這些因素,谷歌DeepMind研究團(tuán)隊(duì)提出了自動(dòng)評估解決方案FLAMe。論文地址:https://arxiv.org/abs/2407.10817
模型本身在經(jīng)歷多規(guī)模指令任務(wù)調(diào)整后,可以遵循一套新的指令,使它們適合用作模型輸出的自動(dòng)評估器。
一方面,為了使LLM自動(dòng)評分更加合理、準(zhǔn)確并與人類偏好保持一致,對人類判斷的數(shù)據(jù)收集極其重要。
然而,獲得這些判斷數(shù)據(jù)既昂貴又耗時(shí)。從以前的研究中收集現(xiàn)有的人類評估貌似可行,但面臨著缺乏標(biāo)準(zhǔn)、文檔數(shù)據(jù)不充分、數(shù)據(jù)隱私和專有權(quán)等問
原文鏈接:87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評估模型FLAMe
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: