<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成

        AIGC動態1年前 (2024)發布 量子位
        474 0 0

        無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成

        AIGC動態歡迎閱讀

        原標題:無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成
        關鍵字:模型,任務,長程,能力,長上
        文章來源:量子位
        內容字數:0字

        內容摘要:


        LooGLE團隊 投稿自 凹非寺量子位 | 公眾號 QbitAI在長文本理解能力這塊,竟然沒有一個大模型及格!
        北大聯合北京通用人工智能研究院提出了一個新基準數據集:LooGLE,專門用于測試和評估大語言模型(LLMs)長上下文理解能力。
        該數據集既能夠評估LLMs對長文本的處理和檢索能力,又可以評估其對文本長程依賴的建模和理解能力。
        結果不評不知道,一評估發現這些模型在復雜的長依賴任務中的多信息檢索、時間重排序、計算、理解推理能力表現均不樂觀。
        比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業模型,平均只有40%的準確率。
        而像開源模型表現就更不理想了…
        ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的準確率。
        目前該論文已被ACL 2024接收。
        論文共同一作為通研院的李佳琪、王萌萌,通訊作者為通研院研究員鄭子隆和北京大學人工智能研究院助理教授張牧涵。
        LooGLE基準測試LooGLE基準測試主要有這樣幾個特點:
        首先,它包含包含近


        原文鏈接:無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产在线19禁免费观看| 免费视频精品一区二区三区| 青青草a免费线观a| 久久精品亚洲精品国产色婷| 亚洲首页在线观看| 美丽姑娘免费观看在线观看中文版 | 日韩国产精品亚洲а∨天堂免| 国产免费AV片在线播放唯爱网| 日本一道在线日本一道高清不卡免费| 亚洲影视自拍揄拍愉拍| 精品久久久久久亚洲中文字幕| 精品久久久久久久免费人妻| 亚洲成a人片在线观看天堂无码| 天天干在线免费视频| 亚洲av无码成人精品区一本二本 | 你是我的城池营垒免费看| 人成午夜免费视频在线观看| 亚洲国产精品成人综合色在线婷婷| 中文字幕亚洲免费无线观看日本| 亚洲人成影院在线高清| 久久国产精品免费看| 亚洲国产精品一区二区九九| 精品久久久久久亚洲精品| 日本卡1卡2卡三卡免费| 亚洲精品国产免费| 日产乱码一卡二卡三免费| 色婷婷综合缴情综免费观看| 全免费一级午夜毛片| 四虎影视久久久免费| 亚洲国产精品无码久久一区二区| 真人做人试看60分钟免费视频| 亚洲av无码专区在线电影| 国产亚洲精品免费视频播放| 最新黄色免费网站| 亚洲网站在线免费观看| 成人黄动漫画免费网站视频 | 狠狠色伊人亚洲综合成人| 日本免费网址大全在线观看| 青娱乐在线免费观看视频| 亚洲午夜视频在线观看| 国产精品国产免费无码专区不卡|