87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe
關(guān)鍵字:模型,數(shù)據(jù),任務(wù),指令,性能
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:?jiǎn)虠?耳朵
【新智元導(dǎo)讀】谷歌DeepMind推出LLM自動(dòng)評(píng)估模型FLAMe系列,F(xiàn)LAMe-RM-24B模型在RewardBench上表現(xiàn)卓越,以87.8%準(zhǔn)確率領(lǐng)先GPT-4o。大語(yǔ)言模型都卷起來(lái)了,模型越做越大,token越來(lái)越多,輸出越來(lái)越長(zhǎng)。
那么問(wèn)題來(lái)了,如何有效地評(píng)估大語(yǔ)言模型的長(zhǎng)篇大論呢?要是輸出長(zhǎng)度長(zhǎng)了但胡言亂語(yǔ)輸出質(zhì)量差,又臭又長(zhǎng),豈不是白搭?
首先能想到的方法就是人工評(píng)估。人工評(píng)估雖然對(duì)于評(píng)價(jià)模型性能至關(guān)重要,但受到主觀性、評(píng)估者之間的差異性以及廣泛評(píng)估的高成本的限制。
考慮到這些因素,谷歌DeepMind研究團(tuán)隊(duì)提出了自動(dòng)評(píng)估解決方案FLAMe。論文地址:https://arxiv.org/abs/2407.10817
模型本身在經(jīng)歷多規(guī)模指令任務(wù)調(diào)整后,可以遵循一套新的指令,使它們適合用作模型輸出的自動(dòng)評(píng)估器。
一方面,為了使LLM自動(dòng)評(píng)分更加合理、準(zhǔn)確并與人類偏好保持一致,對(duì)人類判斷的數(shù)據(jù)收集極其重要。
然而,獲得這些判斷數(shù)據(jù)既昂貴又耗時(shí)。從以前的研究中收集現(xiàn)有的人類評(píng)估貌似可行,但面臨著缺乏標(biāo)準(zhǔn)、文檔數(shù)據(jù)不充分、數(shù)據(jù)隱私和專有權(quán)等問(wèn)
原文鏈接:87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: