<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復

        AIGC動態1年前 (2023)發布 量子位
        293 0 0

        Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復

        AIGC動態歡迎閱讀

        原標題:Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復
        關鍵字:問題,任務,模型,團隊,提示
        文章來源:量子位
        內容字數:3629字

        內容摘要:


        夢晨 發自 凹非寺量子位 | 公眾號 QbitAI谷歌Gemini實力到底如何?梅隆大學來了場專業客觀第三方比較。
        為保證公平,所有模型使用相同的提示和生成參數,并且提供可重復的代碼和完全透明的結果。
        不會像谷歌官方發布會那樣,用CoT@32對比5-shot了。
        一句話結果:Gemini Pro版本接近但略遜于GPT-3.5 Turbo,GPT-4還是遙遙領先。
        在深入分析中還發現Gemini一些奇怪特性,比如選擇題喜歡選D……
        不少研究者表示,太卷了,Gemini剛發布沒幾天就搞出這么詳細的測試。
        六大任務深入測試這項測試具體比較了6大任務,分別選用相應的數據集:
        知識問答:MMLU
        推理:BIG-Bench Hard
        數學:GSM8k、SVAMP、ASDIV、MAWPS
        代碼:HumanEval、ODEX
        翻譯:FLORES
        上網沖浪:WebArena
        知識問答:喜歡選D從結果可以看出,使用思維鏈提示在這類任務上不一定能帶來提升。
        MMLU數據集里都是多選題,對結果進一步分析還發現奇怪現象:Gemini更喜歡選D。
        GPT系列在4個選項上的分布就要平衡很多,團隊提出這可能是G


        原文鏈接:Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品午夜在线观看| 巨波霸乳在线永久免费视频| 亚洲欭美日韩颜射在线二| 免费无码H肉动漫在线观看麻豆 | 久久久久久国产a免费观看黄色大片| 亚洲一级在线观看| 99精品视频免费观看| 亚洲区日韩区无码区| 久久w5ww成w人免费| 亚洲爆乳精品无码一区二区| 成年男女免费视频网站| 中文字幕亚洲综合久久2| 日本无吗免费一二区| 野花香高清视频在线观看免费 | 久久精品国产亚洲AV电影网| 最近2022中文字幕免费视频| 亚洲JIZZJIZZ妇女| 西西人体44rt高清亚洲| 国产人成免费视频| 男男gvh肉在线观看免费| 亚洲天天做日日做天天欢毛片 | 国产亚洲精品国看不卡| 国内精品乱码卡1卡2卡3免费| 久久九九久精品国产免费直播| 亚洲婷婷第一狠人综合精品| 久久午夜免费视频| 美女视频黄的免费视频网页| 成人婷婷网色偷偷亚洲男人的天堂 | 亚洲一区二区三区免费视频| 亚洲自偷自拍另类图片二区| 亚洲国产精品国产自在在线| 一级毛片免费毛片毛片| 久久久久亚洲AV成人网人人网站| 免费电影在线观看网站| 免费福利在线观看| 亚洲一卡2卡3卡4卡乱码 在线| 亚洲av永久无码精品表情包| 国产日产亚洲系列最新| 国产网站在线免费观看| 国产在线精品观看免费观看| 精品亚洲麻豆1区2区3区|