AIGC動態歡迎閱讀
原標題:給大模型LLM評測畫一個句號
文章來源:JioNLP
內容字數:7298字
內容摘要:Hello,我是 JioNLP。之前一篇博客,我提出的一個模型評測的一個簡單算法,我給這個評測算法起了個名字 MELLM(Mutual Evaluation of Large Language Model),讀作 \melm\。MELLM 原理鏈接:這篇文章,我來介紹一下,我是如何做實驗驗證的。最終的實驗結論就是:MELLM 能夠比較好地測評出 LLM 的優劣。回顧一下算法原理MELLM 算法原理非常簡單,其基本思想,就是讓多個模型互相之間進行評價和打分,畫個操作流程圖就是,四個模型互相給出評價分數,當然,是針對每一道題目都給出分數的,圖中只是給了一個總分:然后利用 EM 算法反復迭代多個模型的結果,最終就能得到一個經過擬合優化的結果,其結果就是最終的模型質量評價結果。具體實施過程找API市面上的 LLM 開發廠家數量很多,但是能夠提供 API 的其實并不太多,因此,我從群里很多群友那里要…
聯系作者
文章來源:JioNLP
作者微信:jionlp
作者簡介:AI、自然語言處理、計算機視覺、數據挖掘、數據分析、C、C++。當然,也聊關于程序員的方方面面。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...