AIGC動態歡迎閱讀
原標題:牛皮吹破?大模型長輸入能力不能拿來做上下文學習
關鍵字:模型,標簽,上下文,數據,性能
文章來源:夕小瑤科技說
內容字數:6321字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年LLMs已經進入了長序列時代。眾多的LLMs已經發布支持從32K到2M tokens的長序列窗口。
不過,面對如此龐大的輸入,我們不禁要問:這些模型真的能夠吃透超長文本,捕捉到其中的精華信息嗎?
為了解答這一疑問,滑鐵盧大學的學者們精心打造了一套名為LongICLBench的基準測試,專門用來評估LLMs在長上下文理解方面的能力。這套基準專注于極端標簽分類中的長上下文學習,涵蓋了六個難度不一的數據集,標簽數量從28到174類不等,輸入長度則從2K到50K tokens都有。它要求LLMs必須全面理解輸入內容,準確識別龐大的標簽空間,并作出精準預測。
先說結論。
由上圖可以看到,作者評估了常見的13個長序列LLMs,LLMs在處理較不具挑戰性的任務,且長度較短時,能有效利用長上下文窗口,表現相對較好。
隨著難度提升,LLM在理解任務定義時遇到困難,性能大幅下降。
在最具有挑戰性的Discovery數據集(174個標簽)上,沒有任何LLM能夠理解長示例,導致準確率為零。這表明當前LLMs在處理和理解長、內容豐富的序列方面存在顯著差距。
論文標題:Long-
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...