你為什么不相信 LLM 模型評測：深入評測 LLM 接口

AIGC動態1年前 (2024)發布 JioNLP

AIGC動態歡迎閱讀

原標題：你為什么不相信 LLM 模型評測：深入評測 LLM 接口
關鍵字：騰訊,模型,字節跳動,接口,阿里
文章來源：JioNLP
內容字數：0字

內容摘要：

Hello，大家好，我是 JioNLP。
我相信，你已經看過很多機構發布的 LLM（大語言模型）的模型效果質量的評測文章了。
其實呢，大家看了很多自稱權威，或者不怎么權威的評測文章，基本上也就看看就完了，很少有人真的相信這些測試結果。
為什么你不相信這些評測文章？
因為這些模型評測都有一個共同的問題，那就是：
一個 LLM 模型，憑什么你說好就是好啊？
具體來講，我們之所以不相信這些評測，原因在于：
測試題目要么開源，要么黑盒不可見：很多 LLM 會利用開源的測試題來做模型訓練，其實就是還沒考試，就先把考試題的答案背下來了，這么測試相當于作弊，最后的 LLM 排名當然不公平。另外，也有一些數據集是黑盒的，對于看客來說，大家連測試數據題目都看不到，你就敢給模型排名了？公信力在哪里？憑什么讓人信服？
測試使用了 GPT4 來打分：很多 LLM 在測試的時候，測試題目動不動就有上萬道，根本沒法雇傭人力，去一道道批改模型答對沒有，誰去批改上萬道題不麻呀？~~~。所以，很普遍的一個做法就是，讓 GPT-4 去評價模型的回答質量。實際上，就是用下面這套提示模板來讓 GPT-4打分：
這里是一個問

原文鏈接：你為什么不相信 LLM 模型評測：深入評測 LLM 接口