陳丹琦團(tuán)隊(duì)新作:Llama-2上下文擴(kuò)展至128k,10倍吞吐量?jī)H需1/6內(nèi)存
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:陳丹琦團(tuán)隊(duì)新作:Llama-2上下文擴(kuò)展至128k,10倍吞吐量?jī)H需1/6內(nèi)存
關(guān)鍵字:騰訊,模型,上下文,編碼器,解碼器
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):4553字
內(nèi)容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI陳丹琦團(tuán)隊(duì)剛剛發(fā)布了一種新的LLM上下文窗口擴(kuò)展方法:
它僅用8k大小的token文檔進(jìn)行訓(xùn)練,就能將Llama-2窗口擴(kuò)展至128k。
最重要的是,在這個(gè)過(guò)程中,只需要原來(lái)1/6的內(nèi)存,模型就獲得了10倍吞吐量。
除此之外,它還能大大降低訓(xùn)練成本:
用該方法對(duì)7B大小的羊駝2進(jìn)行改造,只需要一塊A100就能搞定。
團(tuán)隊(duì)表示:
希望這個(gè)方法有用、好用,為未來(lái)的LLM們提供廉價(jià)又有效的長(zhǎng)上下文能力。
目前,模型和代碼都已在HuggingFace和GitHub上發(fā)布。
只需添加兩個(gè)組件這個(gè)方法名叫CEPE,全稱“并行編碼上下文擴(kuò)展(Context Expansion with Parallel Encoding)”。
作為輕量級(jí)框架,它可用于擴(kuò)展任何預(yù)訓(xùn)練和指令微調(diào)模型的上下文窗口。
對(duì)于任何預(yù)訓(xùn)練的僅解碼器語(yǔ)言模型,CEPE通過(guò)添加兩個(gè)小組件來(lái)實(shí)現(xiàn)擴(kuò)展:
一個(gè)是小型編碼器,用于對(duì)長(zhǎng)上下文進(jìn)行塊編碼;
一個(gè)是交叉注意力模塊,插入到解碼器的每一層,用于關(guān)注編碼器表示。
完整架構(gòu)如下:
在這個(gè)示意圖中,編碼器模型并行編碼上下文的3個(gè)額外塊,并與
原文鏈接:陳丹琦團(tuán)隊(duì)新作:Llama-2上下文擴(kuò)展至128k,10倍吞吐量?jī)H需1/6內(nèi)存
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破