NVIDIA把Llama-3的上下文長度擴展16倍，長上下文理解能力超越GPT-4

AIGC動態歡迎閱讀

原標題：NVIDIA把Llama-3的上下文長度擴展16倍，長上下文理解能力超越GPT-4
關鍵字：模型,上下文,長度,長上,下文
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | Richard在 Llama-3.1 模型發布之前，開源模型與閉源模型的性能之間一直存在較大的差距，尤其是在長上下文理解能力上。
大模型的上下文處理能力是指模型能夠處理的輸入和輸出 Tokens 的總數。這個長度有一個限制，超過這個限制的內容會被模型忽略。一般而言，開源大模型的上下文長度普遍較短，例如 Llama3 的上下文長度為 8K；而閉源模型的上下文長度則要比開源模型長的多，例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文長度。這意味著閉源模型能夠一次處理更多的信息，從而在復雜任務中表現出更強的能力。
最近 NVIDIA 研究團隊在開源模型 Llama-3 的基礎上，通過一系列創新技術，將其上下文長度從原來的 8K 擴展到了 128K，將 Llama-3 的上下文長度擴展到原始的 16 倍。在長上下文理解能力上，擴展之后的 Llama3-ChatQA-2-70B 模型甚至超越了 GPT-4。
研究團隊使用經過處理的 SlimPajama 數據集生成了 100 億個 token 的 128K 長度的數據集。為了適應較長的上下文，研

原文鏈接：NVIDIA把Llama-3的上下文長度擴展16倍，長上下文理解能力超越GPT-4