AIGC動態歡迎閱讀
原標題:NVIDIA把Llama-3的上下文長度擴展16倍,長上下文理解能力超越GPT-4
關鍵字:模型,上下文,長度,長上,下文
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | Richard在 Llama-3.1 模型發布之前,開源模型與閉源模型的性能之間一直存在較大的差距,尤其是在長上下文理解能力上。
大模型的上下文處理能力是指模型能夠處理的輸入和輸出 Tokens 的總數。這個長度有一個限制,超過這個限制的內容會被模型忽略。一般而言,開源大模型的上下文長度普遍較短,例如 Llama3 的上下文長度為 8K;而閉源模型的上下文長度則要比開源模型長的多,例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文長度。這意味著閉源模型能夠一次處理更多的信息,從而在復雜任務中表現出更強的能力。
最近 NVIDIA 研究團隊在開源模型 Llama-3 的基礎上,通過一系列創新技術,將其上下文長度從原來的 8K 擴展到了 128K,將 Llama-3 的上下文長度擴展到原始的 16 倍。在長上下文理解能力上,擴展之后的 Llama3-ChatQA-2-70B 模型甚至超越了 GPT-4。
研究團隊使用經過處理的 SlimPajama 數據集生成了 100 億個 token 的 128K 長度的數據集。為了適應較長的上下文,研
原文鏈接:NVIDIA把Llama-3的上下文長度擴展16倍,長上下文理解能力超越GPT-4
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...