AIGC動態歡迎閱讀
原標題:200萬上下文窗口創飛Gemini 1.5!微軟來砸谷歌場子了(doge)
關鍵字:上下文,模型,騰訊,窗口,長度
文章來源:量子位
內容字數:4934字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAI谷歌剛刷新大模型上下文窗口長度記錄,發布支持100萬token的Gemini 1.5,微軟就來砸場子了。
推出大模型上下文窗口拉長新方法——LongRoPE,一口氣將上下文拉至2048k token,也就是200多萬!
并且1000步微調內,即可完成從短上下文到長上下文的擴展,同時保持原來短上下文窗口性能,也就是說訓練成本和時間又省了一大筆。
網友看不下去了,直呼“谷歌太慘了”:
此外值得一提的是,這次LongRoPE為純華人團隊,論文一作Yiran Ding,就讀于杭州電子科技大學,于實習期間完成該項工作。
LongRoPE究竟長啥樣?先來看一波測試效果。
拿LLaMA2和Mistral試試水上下文窗口有效拉長,語言模型長文本理解能力可以得到很大提高。研究人員在LLaMA2-7B和Mistral-7B上應用LongRoPE,從三個方面評估了其性能。
第一項測試是在長文檔上評估擴展上下文語言模型的困惑度。
在256k以內的評估長度上,研究人員使用Proof-pile和PG19數據集來進行測試。
LongRoPE在4k-256k的文本長度
原文鏈接:200萬上下文窗口創飛Gemini 1.5!微軟來砸谷歌場子了(doge)
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...