NVIDIA把Llama-3的上下文長度擴(kuò)展16倍,長上下文理解能力超越GPT-4
AIGC動態(tài)歡迎閱讀
原標(biāo)題:NVIDIA把Llama-3的上下文長度擴(kuò)展16倍,長上下文理解能力超越GPT-4
關(guān)鍵字:模型,上下文,長度,長上,下文
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | Richard在 Llama-3.1 模型發(fā)布之前,開源模型與閉源模型的性能之間一直存在較大的差距,尤其是在長上下文理解能力上。
大模型的上下文處理能力是指模型能夠處理的輸入和輸出 Tokens 的總數(shù)。這個(gè)長度有一個(gè)限制,超過這個(gè)限制的內(nèi)容會被模型忽略。一般而言,開源大模型的上下文長度普遍較短,例如 Llama3 的上下文長度為 8K;而閉源模型的上下文長度則要比開源模型長的多,例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文長度。這意味著閉源模型能夠一次處理更多的信息,從而在復(fù)雜任務(wù)中表現(xiàn)出更強(qiáng)的能力。
最近 NVIDIA 研究團(tuán)隊(duì)在開源模型 Llama-3 的基礎(chǔ)上,通過一系列創(chuàng)新技術(shù),將其上下文長度從原來的 8K 擴(kuò)展到了 128K,將 Llama-3 的上下文長度擴(kuò)展到原始的 16 倍。在長上下文理解能力上,擴(kuò)展之后的 Llama3-ChatQA-2-70B 模型甚至超越了 GPT-4。
研究團(tuán)隊(duì)使用經(jīng)過處理的 SlimPajama 數(shù)據(jù)集生成了 100 億個(gè) token 的 128K 長度的數(shù)據(jù)集。為了適應(yīng)較長的上下文,研
原文鏈接:NVIDIA把Llama-3的上下文長度擴(kuò)展16倍,長上下文理解能力超越GPT-4
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介: