<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        “大海撈針”out!“數(shù)星星”成測長文本能力更精準方法,來自鵝廠

        AIGC動態(tài)1年前 (2024)發(fā)布 量子位
        315 0 0

        “大海撈針”out!“數(shù)星星”成測長文本能力更精準方法,來自鵝廠

        AIGC動態(tài)歡迎閱讀

        原標題:“大海撈針”out!“數(shù)星星”成測長文本能力更精準方法,來自鵝廠
        關鍵字:模型,騰訊,星星,測試,研究人員
        文章來源:量子位
        內容字數(shù):4579字

        內容摘要:


        克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI大模型長文本能力測試,又有新方法了!
        騰訊MLPD實驗室,用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測試。
        相比之下,新方法更注重對模型處理長依賴關系能力的考察,對模型的評估更加全面精準。
        利用這種方法,研究人員對GPT-4和國內知名的Kimi Chat進行了“數(shù)星星”測試。
        結果,在不同的實驗條件下,兩款模型各有勝負,但都體現(xiàn)出了很強的長文本能力。
        △橫軸系以2為底的對數(shù)坐標那么,“數(shù)星星”究竟是怎樣的一種測試呢?
        比“大海撈針”更加精準首先,研究人員選擇了一段長文本做為上下文,測試過程中長度逐漸遞增,最大為128k。
        然后,根據(jù)不同的測試難度需求,整段文本會被劃分成N段,并向其中插入M個包含“星星”的句子。
        實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了“小企鵝數(shù)了x顆星星”這樣的句子,每個句子中的x都各不相同。
        然后,模型會被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數(shù)字,且只輸出數(shù)字。
        得到模型的輸出之后,研究人員會將這些數(shù)字和Ground Truth進行對比,最終計算出模型輸出的正確率。


        原文鏈接:“大海撈針”out!“數(shù)星星”成測長文本能力更精準方法,來自鵝廠

        聯(lián)系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破

        閱讀原文
        ? 版權聲明
        Trae官網(wǎng)

        相關文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日本特黄特色aa大片免费| 亚洲H在线播放在线观看H| heyzo亚洲精品日韩| 国产伦精品一区二区三区免费迷| 亚洲精品视频久久| 亚洲日本一线产区和二线| 精品香蕉在线观看免费| 亚洲欧洲高清有无| 久草视频在线免费| 亚洲人成图片网站| 看全色黄大色大片免费久久| 精品国产日韩亚洲一区91| 全黄性性激高免费视频| 国产免费AV片在线观看播放| 国产免费不卡v片在线观看| 亚洲伦理中文字幕| 啊灬啊灬别停啊灬用力啊免费看| 特级毛片A级毛片免费播放| 亚洲中文字幕无码久久2017| 日本视频免费高清一本18| 亚洲精品福利网站| 免费无码黄动漫在线观看| 三年片在线观看免费观看大全中国| 狠狠色婷婷狠狠狠亚洲综合| 99视频在线精品免费| mm1313亚洲国产精品美女| 国产在线观看免费av站| 亚洲国产一区二区三区青草影视| 在线观看免费人成视频色| 国产亚洲精品免费| 国产男女猛烈无遮挡免费视频网站| 免费看一级高潮毛片| 亚洲图片在线观看| 在线日韩av永久免费观看| 色www永久免费网站| 亚洲一区二区三区免费观看| 亚洲国产精品狼友中文久久久| 久久大香香蕉国产免费网站| 在线观看亚洲AV每日更新无码| 日日噜噜噜噜夜夜爽亚洲精品| av无码国产在线看免费网站 |