你為什么不相信 LLM 模型評測:深入評測 LLM 接口
AIGC動態(tài)歡迎閱讀
原標(biāo)題:你為什么不相信 LLM 模型評測:深入評測 LLM 接口
關(guān)鍵字:騰訊,模型,字節(jié)跳動,接口,阿里
文章來源:JioNLP
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Hello,大家好,我是 JioNLP。
我相信,你已經(jīng)看過很多機(jī)構(gòu)發(fā)布的 LLM(大語言模型) 的模型效果質(zhì)量的評測文章了。
其實(shí)呢,大家看了很多自稱權(quán)威,或者不怎么權(quán)威的評測文章,基本上也就看看就完了,很少有人真的相信這些測試結(jié)果。
為什么你不相信這些評測文章?
因為這些模型評測都有一個共同的問題,那就是:
一個 LLM 模型,憑什么你說好就是好啊?
具體來講,我們之所以不相信這些評測,原因在于:
測試題目要么開源,要么黑盒不可見:很多 LLM 會利用開源的測試題來做模型訓(xùn)練,其實(shí)就是還沒考試,就先把考試題的答案背下來了,這么測試相當(dāng)于作弊,最后的 LLM 排名當(dāng)然不公平。另外,也有一些數(shù)據(jù)集是黑盒的,對于看客來說,大家連測試數(shù)據(jù)題目都看不到,你就敢給模型排名了?公信力在哪里?憑什么讓人信服?
測試使用了 GPT4 來打分:很多 LLM 在測試的時候,測試題目動不動就有上萬道,根本沒法雇傭人力,去一道道批改模型答對沒有,誰去批改上萬道題不麻呀?~~~。所以,很普遍的一個做法就是,讓 GPT-4 去評價模型的回答質(zhì)量。實(shí)際上,就是用下面這套提示模板來讓 GPT-4打分:
這里是一個問
原文鏈接:你為什么不相信 LLM 模型評測:深入評測 LLM 接口
聯(lián)系作者
文章來源:JioNLP
作者微信:jionlp
作者簡介:AI、自然語言處理、計算機(jī)視覺、數(shù)據(jù)挖掘、數(shù)據(jù)分析、C、C++。當(dāng)然,也聊關(guān)于程序員的方方面面。