<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        “大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

        AIGC動態1年前 (2024)發布 量子位
        315 0 0

        “大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

        AIGC動態歡迎閱讀

        原標題:“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠
        關鍵字:模型,騰訊,星星,測試,研究人員
        文章來源:量子位
        內容字數:4579字

        內容摘要:


        克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大模型長文本能力測試,又有新方法了!
        騰訊MLPD實驗室,用全新開源的“數星星”方法替代了傳統的“大海撈針”測試。
        相比之下,新方法更注重對模型處理長依賴關系能力的考察,對模型的評估更加全面精準。
        利用這種方法,研究人員對GPT-4和國內知名的Kimi Chat進行了“數星星”測試。
        結果,在不同的實驗條件下,兩款模型各有勝負,但都體現出了很強的長文本能力。
        △橫軸系以2為底的對數坐標那么,“數星星”究竟是怎樣的一種測試呢?
        比“大海撈針”更加精準首先,研究人員選擇了一段長文本做為上下文,測試過程中長度逐漸遞增,最大為128k。
        然后,根據不同的測試難度需求,整段文本會被劃分成N段,并向其中插入M個包含“星星”的句子。
        實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了“小企鵝數了x顆星星”這樣的句子,每個句子中的x都各不相同。
        然后,模型會被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數字,且只輸出數字。
        得到模型的輸出之后,研究人員會將這些數字和Ground Truth進行對比,最終計算出模型輸出的正確率。


        原文鏈接:“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲三级中文字幕| 亚洲精品国产成人99久久| 亚洲 欧洲 自拍 另类 校园| 国产成人免费视频| 午夜亚洲www湿好大| 100部毛片免费全部播放完整| 亚洲国产成人片在线观看| 久久免费福利视频| 亚洲精品电影在线| 久久午夜夜伦鲁鲁片免费无码影视 | 亚洲婷婷天堂在线综合| 午夜国产精品免费观看| 国产午夜亚洲精品国产| 四虎永久成人免费| 伊人久久国产免费观看视频| 亚洲日本一区二区一本一道| aa午夜免费剧场| 亚洲国产精品va在线播放| 67pao强力打造高清免费| 亚洲国产成人精品激情| 国产最新凸凹视频免费| 一级做a爰性色毛片免费| 久久香蕉国产线看观看亚洲片| 最近中文字幕大全中文字幕免费| 亚洲人成网站在线观看播放动漫| 日韩在线天堂免费观看| 国产福利免费视频| 亚洲精品美女在线观看播放| 啦啦啦高清视频在线观看免费 | 久久精品女人天堂AV免费观看| 久久精品国产亚洲av天美18| 久久亚洲AV无码西西人体| 99re6在线精品视频免费播放 | 亚洲另类自拍丝袜第1页| 日韩a级毛片免费视频| 国内精品免费久久影院| 亚洲AV一二三区成人影片| 免费在线观看日韩| 久久99国产乱子伦精品免费| 色婷婷六月亚洲综合香蕉| 亚洲国产成人片在线观看无码|