<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成

        AIGC動態9個月前發布 量子位
        470 0 0

        無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成

        AIGC動態歡迎閱讀

        原標題:無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成
        關鍵字:模型,任務,長程,能力,長上
        文章來源:量子位
        內容字數:0字

        內容摘要:


        LooGLE團隊 投稿自 凹非寺量子位 | 公眾號 QbitAI在長文本理解能力這塊,竟然沒有一個大模型及格!
        北大聯合北京通用人工智能研究院提出了一個新基準數據集:LooGLE,專門用于測試和評估大語言模型(LLMs)長上下文理解能力。
        該數據集既能夠評估LLMs對長文本的處理和檢索能力,又可以評估其對文本長程依賴的建模和理解能力。
        結果不評不知道,一評估發現這些模型在復雜的長依賴任務中的多信息檢索、時間重排序、計算、理解推理能力表現均不樂觀。
        比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業模型,平均只有40%的準確率。
        而像開源模型表現就更不理想了…
        ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的準確率。
        目前該論文已被ACL 2024接收。
        論文共同一作為通研院的李佳琪、王萌萌,通訊作者為通研院研究員鄭子隆和北京大學人工智能研究院助理教授張牧涵。
        LooGLE基準測試LooGLE基準測試主要有這樣幾個特點:
        首先,它包含包含近


        原文鏈接:無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 性短视频在线观看免费不卡流畅| 亚洲av永久无码天堂网| 国产精品亚洲一区二区三区在线 | 97se亚洲综合在线| 国产男女爽爽爽免费视频 | 亚洲国产成a人v在线| 久久久久久久99精品免费 | 黄色免费在线网站| 亚洲国产精品VA在线看黑人| 91视频精品全国免费观看| 久久影视国产亚洲| 国产在线观看免费av站| 国产亚洲免费的视频看| 久久99热精品免费观看动漫| 亚洲午夜久久久精品影院| 成人免费在线看片| 亚洲小说图区综合在线| 波多野结衣久久高清免费| 四虎影视永久在线精品免费| 老司机永久免费网站在线观看| 亚洲成a∧人片在线观看无码| www国产亚洲精品久久久| aa在线免费观看| 亚洲综合一区二区| 日韩一区二区免费视频| 无码的免费不卡毛片视频| 亚洲五月综合缴情在线观看| 亚洲黄色免费观看| 亚洲一区二区三区高清在线观看| 韩国免费一级成人毛片| 一级毛片a免费播放王色电影 | 亚洲福利电影在线观看| 免费观看激色视频网站(性色) | 亚洲中文字幕不卡无码| kk4kk免费视频毛片| 亚洲中文字幕无码久久精品1| 国产午夜精品理论片免费观看| 国产在线国偷精品产拍免费| 亚洲欧美日韩国产精品一区| 精品久久久久久久免费加勒比| 韩国亚洲伊人久久综合影院|