牛皮吹破?大模型長輸入能力不能拿來做上下文學(xué)習(xí)

AIGC動態(tài)歡迎閱讀
原標(biāo)題:牛皮吹破?大模型長輸入能力不能拿來做上下文學(xué)習(xí)
關(guān)鍵字:模型,標(biāo)簽,上下文,數(shù)據(jù),性能
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):6321字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年LLMs已經(jīng)進(jìn)入了長序列時(shí)代。眾多的LLMs已經(jīng)發(fā)布支持從32K到2M tokens的長序列窗口。
不過,面對如此龐大的輸入,我們不禁要問:這些模型真的能夠吃透超長文本,捕捉到其中的精華信息嗎?
為了解答這一疑問,滑鐵盧大學(xué)的學(xué)者們精心打造了一套名為LongICLBench的基準(zhǔn)測試,專門用來評估LLMs在長上下文理解方面的能力。這套基準(zhǔn)專注于極端標(biāo)簽分類中的長上下文學(xué)習(xí),涵蓋了六個(gè)難度不一的數(shù)據(jù)集,標(biāo)簽數(shù)量從28到174類不等,輸入長度則從2K到50K tokens都有。它要求LLMs必須全面理解輸入內(nèi)容,準(zhǔn)確識別龐大的標(biāo)簽空間,并作出精準(zhǔn)預(yù)測。
先說結(jié)論。
由上圖可以看到,作者評估了常見的13個(gè)長序列LLMs,LLMs在處理較不具挑戰(zhàn)性的任務(wù),且長度較短時(shí),能有效利用長上下文窗口,表現(xiàn)相對較好。
隨著難度提升,LLM在理解任務(wù)定義時(shí)遇到困難,性能大幅下降。
在最具有挑戰(zhàn)性的Discovery數(shù)據(jù)集(174個(gè)標(biāo)簽)上,沒有任何LLM能夠理解長示例,導(dǎo)致準(zhǔn)確率為零。這表明當(dāng)前LLMs在處理和理解長、內(nèi)容豐富的序列方面存在顯著差距。
論文標(biāo)題:Long-
原文鏈接:牛皮吹破?大模型長輸入能力不能拿來做上下文學(xué)習(xí)
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號