牛皮吹破？大模型長輸入能力不能拿來做上下文學習

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：牛皮吹破？大模型長輸入能力不能拿來做上下文學習
關鍵字：模型,標簽,上下文,數據,性能
文章來源：夕小瑤科技說
內容字數：6321字

內容摘要：

夕小瑤科技說原創作者 | 謝年年LLMs已經進入了長序列時代。眾多的LLMs已經發布支持從32K到2M tokens的長序列窗口。
不過，面對如此龐大的輸入，我們不禁要問：這些模型真的能夠吃透超長文本，捕捉到其中的精華信息嗎？
為了解答這一疑問，滑鐵盧大學的學者們精心打造了一套名為LongICLBench的基準測試，專門用來評估LLMs在長上下文理解方面的能力。這套基準專注于極端標簽分類中的長上下文學習，涵蓋了六個難度不一的數據集，標簽數量從28到174類不等，輸入長度則從2K到50K tokens都有。它要求LLMs必須全面理解輸入內容，準確識別龐大的標簽空間，并作出精準預測。
先說結論。
由上圖可以看到，作者評估了常見的13個長序列LLMs，LLMs在處理較不具挑戰性的任務，且長度較短時，能有效利用長上下文窗口，表現相對較好。
隨著難度提升，LLM在理解任務定義時遇到困難，性能大幅下降。
在最具有挑戰性的Discovery數據集（174個標簽）上，沒有任何LLM能夠理解長示例，導致準確率為零。這表明當前LLMs在處理和理解長、內容豐富的序列方面存在顯著差距。
論文標題:Long-

原文鏈接：牛皮吹破？大模型長輸入能力不能拿來做上下文學習

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文