58行代碼把Llama 3擴(kuò)展到100萬上下文,任何微調(diào)版都適用
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:58行代碼把Llama 3擴(kuò)展到100萬上下文,任何微調(diào)版都適用
關(guān)鍵字:上下文,模型,版本,原版,團(tuán)隊(duì)
文章來源:量子位
內(nèi)容字?jǐn)?shù):2600字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI堂堂開源之王Llama 3,原版上下文窗口居然只有……8k,讓到嘴邊的一句“真香”又咽回去了。?
在32k起步,100k尋常的今天,這是故意要給開源社區(qū)留做貢獻(xiàn)的空間嗎?
開源社區(qū)當(dāng)然不會(huì)放過這個(gè)機(jī)會(huì):
現(xiàn)在只需58行代碼,任何Llama 3 70b的微調(diào)版本都能自動(dòng)擴(kuò)展到1048k(一百萬)上下文。
背后是一個(gè)LoRA,從擴(kuò)展好上下文的Llama 3 70B Instruct微調(diào)版本中提取出來,文件只有800mb。
接下來使用Mergekit,就可以與其他同架構(gòu)模型一起運(yùn)行或直接合并到模型中。
所使用的1048k上下文微調(diào)版本,剛剛在流行的大海撈針測試中達(dá)到全綠(100%準(zhǔn)確率)的成績。
不得不說,開源的進(jìn)步速度是指數(shù)級的。
1048k上下文LoRA怎么煉成的首先1048k上下文版Llama 3微調(diào)模型來自Gradient AI,一個(gè)企業(yè)AI解決方案初創(chuàng)公司。
而對應(yīng)的LoRA來自開發(fā)者Eric Hartford,通過比較微調(diào)模型與原版的差異,提取出參數(shù)的變化。
他先制作了524k上下文版,隨后又更新了1048k版本。
首先,Grad
原文鏈接:58行代碼把Llama 3擴(kuò)展到100萬上下文,任何微調(diào)版都適用
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破