<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        你為什么不相信 LLM 模型評(píng)測(cè):深入評(píng)測(cè) LLM 接口

        AIGC動(dòng)態(tài)1年前 (2024)發(fā)布 JioNLP
        374 0 0

        你為什么不相信 LLM 模型評(píng)測(cè):深入評(píng)測(cè) LLM 接口

        AIGC動(dòng)態(tài)歡迎閱讀

        原標(biāo)題:你為什么不相信 LLM 模型評(píng)測(cè):深入評(píng)測(cè) LLM 接口
        關(guān)鍵字:騰訊,模型,字節(jié)跳動(dòng),接口,阿里
        文章來(lái)源:JioNLP
        內(nèi)容字?jǐn)?shù):0字

        內(nèi)容摘要:


        Hello,大家好,我是 JioNLP。
        我相信,你已經(jīng)看過(guò)很多機(jī)構(gòu)發(fā)布的 LLM(大語(yǔ)言模型) 的模型效果質(zhì)量的評(píng)測(cè)文章了。
        其實(shí)呢,大家看了很多自稱權(quán)威,或者不怎么權(quán)威的評(píng)測(cè)文章,基本上也就看看就完了,很少有人真的相信這些測(cè)試結(jié)果。
        為什么你不相信這些評(píng)測(cè)文章?
        因?yàn)檫@些模型評(píng)測(cè)都有一個(gè)共同的問(wèn)題,那就是:
        一個(gè) LLM 模型,憑什么你說(shuō)好就是好啊?
        具體來(lái)講,我們之所以不相信這些評(píng)測(cè),原因在于:
        測(cè)試題目要么開源,要么黑盒不可見:很多 LLM 會(huì)利用開源的測(cè)試題來(lái)做模型訓(xùn)練,其實(shí)就是還沒考試,就先把考試題的答案背下來(lái)了,這么測(cè)試相當(dāng)于作弊,最后的 LLM 排名當(dāng)然不公平。另外,也有一些數(shù)據(jù)集是黑盒的,對(duì)于看客來(lái)說(shuō),大家連測(cè)試數(shù)據(jù)題目都看不到,你就敢給模型排名了?公信力在哪里?憑什么讓人信服?
        測(cè)試使用了 GPT4 來(lái)打分:很多 LLM 在測(cè)試的時(shí)候,測(cè)試題目動(dòng)不動(dòng)就有上萬(wàn)道,根本沒法雇傭人力,去一道道批改模型答對(duì)沒有,誰(shuí)去批改上萬(wàn)道題不麻呀?~~~。所以,很普遍的一個(gè)做法就是,讓 GPT-4 去評(píng)價(jià)模型的回答質(zhì)量。實(shí)際上,就是用下面這套提示模板來(lái)讓 GPT-4打分:
        這里是一個(gè)問(wèn)


        原文鏈接:你為什么不相信 LLM 模型評(píng)測(cè):深入評(píng)測(cè) LLM 接口

        聯(lián)系作者

        文章來(lái)源:JioNLP
        作者微信:jionlp
        作者簡(jiǎn)介:AI、自然語(yǔ)言處理、計(jì)算機(jī)視覺、數(shù)據(jù)挖掘、數(shù)據(jù)分析、C、C++。當(dāng)然,也聊關(guān)于程序員的方方面面。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 五月婷婷在线免费观看| 美女视频黄频a免费大全视频| 国产在线国偷精品免费看| 无遮免费网站在线入口| 亚洲乱妇熟女爽到高潮的片 | 国产真人无遮挡作爱免费视频| 精品亚洲AV无码一区二区| 日韩一级视频免费观看| 永久免费无码日韩视频| 亚洲av无码一区二区乱子伦as| 69国产精品视频免费| 亚洲精华液一二三产区| 激情综合色五月丁香六月亚洲| 99精品一区二区免费视频| 亚洲大尺度无码无码专线一区| 亚洲av永久无码嘿嘿嘿| 亚洲精品亚洲人成在线观看麻豆 | 亚洲无成人网77777| 日韩成人免费在线| 人妻视频一区二区三区免费| 国产精品亚洲一区二区无码 | 亚洲高清免费视频| 亚洲美女视频一区二区三区| 女人18毛片特级一级免费视频| 伊人久久国产免费观看视频| 免费人成视频在线观看免费| 精品日韩亚洲AV无码一区二区三区 | 欧洲乱码伦视频免费国产| 婷婷亚洲综合五月天小说在线| 久久久亚洲欧洲日产国码农村| 永久中文字幕免费视频网站| 毛片在线全部免费观看| 亚洲精品无码专区| 亚洲精品无码专区在线播放| 亚洲av无码兔费综合| 亚洲国产精品久久人人爱| 在线免费观看一级片| 免费看片免费播放| 国产又大又黑又粗免费视频| 24小时在线免费视频| 免费福利视频导航|