
AIGC動態歡迎閱讀
原標題:你為什么不相信 LLM 模型評測:深入評測 LLM 接口
關鍵字:騰訊,模型,字節跳動,接口,阿里
文章來源:JioNLP
內容字數:0字
內容摘要:
Hello,大家好,我是 JioNLP。
我相信,你已經看過很多機構發布的 LLM(大語言模型) 的模型效果質量的評測文章了。
其實呢,大家看了很多自稱權威,或者不怎么權威的評測文章,基本上也就看看就完了,很少有人真的相信這些測試結果。
為什么你不相信這些評測文章?
因為這些模型評測都有一個共同的問題,那就是:
一個 LLM 模型,憑什么你說好就是好啊?
具體來講,我們之所以不相信這些評測,原因在于:
測試題目要么開源,要么黑盒不可見:很多 LLM 會利用開源的測試題來做模型訓練,其實就是還沒考試,就先把考試題的答案背下來了,這么測試相當于作弊,最后的 LLM 排名當然不公平。另外,也有一些數據集是黑盒的,對于看客來說,大家連測試數據題目都看不到,你就敢給模型排名了?公信力在哪里?憑什么讓人信服?
測試使用了 GPT4 來打分:很多 LLM 在測試的時候,測試題目動不動就有上萬道,根本沒法雇傭人力,去一道道批改模型答對沒有,誰去批改上萬道題不麻呀?~~~。所以,很普遍的一個做法就是,讓 GPT-4 去評價模型的回答質量。實際上,就是用下面這套提示模板來讓 GPT-4打分:
這里是一個問
原文鏈接:你為什么不相信 LLM 模型評測:深入評測 LLM 接口
聯系作者
文章來源:JioNLP
作者微信:jionlp
作者簡介:AI、自然語言處理、計算機視覺、數據挖掘、數據分析、C、C++。當然,也聊關于程序員的方方面面。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號