87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe
關(guān)鍵字：模型,數(shù)據(jù),任務(wù),指令,性能
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報(bào)道編輯：?jiǎn)虠?耳朵
【新智元導(dǎo)讀】谷歌DeepMind推出LLM自動(dòng)評(píng)估模型FLAMe系列，F(xiàn)LAMe-RM-24B模型在RewardBench上表現(xiàn)卓越，以87.8%準(zhǔn)確率領(lǐng)先GPT-4o。大語(yǔ)言模型都卷起來(lái)了，模型越做越大，token越來(lái)越多，輸出越來(lái)越長(zhǎng)。
那么問(wèn)題來(lái)了，如何有效地評(píng)估大語(yǔ)言模型的長(zhǎng)篇大論呢？要是輸出長(zhǎng)度長(zhǎng)了但胡言亂語(yǔ)輸出質(zhì)量差，又臭又長(zhǎng)，豈不是白搭?
首先能想到的方法就是人工評(píng)估。人工評(píng)估雖然對(duì)于評(píng)價(jià)模型性能至關(guān)重要，但受到主觀性、評(píng)估者之間的差異性以及廣泛評(píng)估的高成本的限制。
考慮到這些因素，谷歌DeepMind研究團(tuán)隊(duì)提出了自動(dòng)評(píng)估解決方案FLAMe。論文地址：https://arxiv.org/abs/2407.10817
模型本身在經(jīng)歷多規(guī)模指令任務(wù)調(diào)整后，可以遵循一套新的指令，使它們適合用作模型輸出的自動(dòng)評(píng)估器。
一方面，為了使LLM自動(dòng)評(píng)分更加合理、準(zhǔn)確并與人類偏好保持一致，對(duì)人類判斷的數(shù)據(jù)收集極其重要。
然而，獲得這些判斷數(shù)據(jù)既昂貴又耗時(shí)。從以前的研究中收集現(xiàn)有的人類評(píng)估貌似可行，但面臨著缺乏標(biāo)準(zhǔn)、文檔數(shù)據(jù)不充分、數(shù)據(jù)隱私和專有權(quán)等問(wèn)

原文鏈接：87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe