AIGC動態歡迎閱讀
原標題:無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成
關鍵字:模型,任務,長程,能力,長上
文章來源:量子位
內容字數:0字
內容摘要:
LooGLE團隊 投稿自 凹非寺量子位 | 公眾號 QbitAI在長文本理解能力這塊,竟然沒有一個大模型及格!
北大聯合北京通用人工智能研究院提出了一個新基準數據集:LooGLE,專門用于測試和評估大語言模型(LLMs)長上下文理解能力。
該數據集既能夠評估LLMs對長文本的處理和檢索能力,又可以評估其對文本長程依賴的建模和理解能力。
結果不評不知道,一評估發現這些模型在復雜的長依賴任務中的多信息檢索、時間重排序、計算、理解推理能力表現均不樂觀。
比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業模型,平均只有40%的準確率。
而像開源模型表現就更不理想了…
ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的準確率。
目前該論文已被ACL 2024接收。
論文共同一作為通研院的李佳琪、王萌萌,通訊作者為通研院研究員鄭子隆和北京大學人工智能研究院助理教授張牧涵。
LooGLE基準測試LooGLE基準測試主要有這樣幾個特點:
首先,它包含包含近
原文鏈接:無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...