200萬上下文窗口創(chuàng)飛Gemini 1.5！微軟來砸谷歌場(chǎng)子了（doge）

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：200萬上下文窗口創(chuàng)飛Gemini 1.5！微軟來砸谷歌場(chǎng)子了（doge）
關(guān)鍵字：上下文,模型,騰訊,窗口,長度
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4934字

內(nèi)容摘要：

西風(fēng) 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI谷歌剛刷新大模型上下文窗口長度記錄，發(fā)布支持100萬token的Gemini 1.5，微軟就來砸場(chǎng)子了。
推出大模型上下文窗口拉長新方法——LongRoPE，一口氣將上下文拉至2048k token，也就是200多萬！
并且1000步微調(diào)內(nèi)，即可完成從短上下文到長上下文的擴(kuò)展，同時(shí)保持原來短上下文窗口性能，也就是說訓(xùn)練成本和時(shí)間又省了一大筆。
網(wǎng)友看不下去了，直呼“谷歌太慘了”：
此外值得一提的是，這次LongRoPE為純?nèi)A人團(tuán)隊(duì)，論文一作Yiran Ding，就讀于杭州電子科技大學(xué)，于實(shí)習(xí)期間完成該項(xiàng)工作。
LongRoPE究竟長啥樣？先來看一波測(cè)試效果。
拿LLaMA2和Mistral試試水上下文窗口有效拉長，語言模型長文本理解能力可以得到很大提高。研究人員在LLaMA2-7B和Mistral-7B上應(yīng)用LongRoPE，從三個(gè)方面評(píng)估了其性能。
第一項(xiàng)測(cè)試是在長文檔上評(píng)估擴(kuò)展上下文語言模型的困惑度。
在256k以內(nèi)的評(píng)估長度上，研究人員使用Proof-pile和PG19數(shù)據(jù)集來進(jìn)行測(cè)試。
LongRoPE在4k-256k的文本長度

原文鏈接：200萬上下文窗口創(chuàng)飛Gemini 1.5！微軟來砸谷歌場(chǎng)子了（doge）

聯(lián)系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

200萬上下文窗口創(chuàng)飛Gemini 1.5！微軟來砸谷歌場(chǎng)子了（doge）

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

小米平板 6S Pro 12.4 體驗(yàn)：性能最好，最實(shí)用的小米平板

昨夜，英偉達(dá)創(chuàng)造歷史：市值突破2萬億美元！

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

200萬上下文窗口創(chuàng)飛Gemini 1.5！微軟來砸谷歌場(chǎng)子了（doge）

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

小米平板 6S Pro 12.4 體驗(yàn)：性能最好，最實(shí)用的小米平板

昨夜，英偉達(dá)創(chuàng)造歷史：市值突破2萬億美元！

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？

小米平板 6S Pro 12.4 體驗(yàn)：性能最好，最實(shí)用的小米平板

昨夜，英偉達(dá)創(chuàng)造歷史：市值突破2萬億美元！