AIGC動態歡迎閱讀
原標題:陳丹琦團隊新作:Llama-2上下文擴展至128k,10倍吞吐量僅需1/6內存
關鍵字:騰訊,模型,上下文,編碼器,解碼器
文章來源:量子位
內容字數:4553字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI陳丹琦團隊剛剛發布了一種新的LLM上下文窗口擴展方法:
它僅用8k大小的token文檔進行訓練,就能將Llama-2窗口擴展至128k。
最重要的是,在這個過程中,只需要原來1/6的內存,模型就獲得了10倍吞吐量。
除此之外,它還能大大降低訓練成本:
用該方法對7B大小的羊駝2進行改造,只需要一塊A100就能搞定。
團隊表示:
希望這個方法有用、好用,為未來的LLM們提供廉價又有效的長上下文能力。
目前,模型和代碼都已在HuggingFace和GitHub上發布。
只需添加兩個組件這個方法名叫CEPE,全稱“并行編碼上下文擴展(Context Expansion with Parallel Encoding)”。
作為輕量級框架,它可用于擴展任何預訓練和指令微調模型的上下文窗口。
對于任何預訓練的僅解碼器語言模型,CEPE通過添加兩個小組件來實現擴展:
一個是小型編碼器,用于對長上下文進行塊編碼;
一個是交叉注意力模塊,插入到解碼器的每一層,用于關注編碼器表示。
完整架構如下:
在這個示意圖中,編碼器模型并行編碼上下文的3個額外塊,并與
原文鏈接:陳丹琦團隊新作:Llama-2上下文擴展至128k,10倍吞吐量僅需1/6內存
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...