200萬上下文窗口創(chuàng)飛Gemini 1.5!微軟來砸谷歌場(chǎng)子了(doge)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:200萬上下文窗口創(chuàng)飛Gemini 1.5!微軟來砸谷歌場(chǎng)子了(doge)
關(guān)鍵字:上下文,模型,騰訊,窗口,長度
文章來源:量子位
內(nèi)容字?jǐn)?shù):4934字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI谷歌剛刷新大模型上下文窗口長度記錄,發(fā)布支持100萬token的Gemini 1.5,微軟就來砸場(chǎng)子了。
推出大模型上下文窗口拉長新方法——LongRoPE,一口氣將上下文拉至2048k token,也就是200多萬!
并且1000步微調(diào)內(nèi),即可完成從短上下文到長上下文的擴(kuò)展,同時(shí)保持原來短上下文窗口性能,也就是說訓(xùn)練成本和時(shí)間又省了一大筆。
網(wǎng)友看不下去了,直呼“谷歌太慘了”:
此外值得一提的是,這次LongRoPE為純?nèi)A人團(tuán)隊(duì),論文一作Yiran Ding,就讀于杭州電子科技大學(xué),于實(shí)習(xí)期間完成該項(xiàng)工作。
LongRoPE究竟長啥樣?先來看一波測(cè)試效果。
拿LLaMA2和Mistral試試水上下文窗口有效拉長,語言模型長文本理解能力可以得到很大提高。研究人員在LLaMA2-7B和Mistral-7B上應(yīng)用LongRoPE,從三個(gè)方面評(píng)估了其性能。
第一項(xiàng)測(cè)試是在長文檔上評(píng)估擴(kuò)展上下文語言模型的困惑度。
在256k以內(nèi)的評(píng)估長度上,研究人員使用Proof-pile和PG19數(shù)據(jù)集來進(jìn)行測(cè)試。
LongRoPE在4k-256k的文本長度
原文鏈接:200萬上下文窗口創(chuàng)飛Gemini 1.5!微軟來砸谷歌場(chǎng)子了(doge)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破