AIGC動態歡迎閱讀
原標題:四行代碼讓大模型上下文暴增3倍,羊駝Mistral都適用
關鍵字:模型,文本,長度,窗口,能力
文章來源:量子位
內容字數:3103字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI無需微調,只要四行代碼就能讓大模型窗口長度暴增,最高可增加3倍!
而且是“即插即用”,理論上可以適配任意大模型,目前已在Mistral和Llama2上試驗成功。
有了這項技術,大模型(LargeLM)就能搖身一變,成為LongLM。
近日,來自得克薩斯農工大學等機構的華人學者們發布了全新的大模型窗口擴展方法SelfExtended(簡稱SE)。
在Mistral上,研究者在24k長度的文本中隨機插入5位數字讓模型搜索,結果經SE處理后,呈現出了全綠(通過)的測試結果。
而未經處理的版本,在6k長度時就已經開始“見紅”了。
GitHub Copilot主創Alex Graveley也激動地宣布,在Llama2上進行的實驗同樣取得了成功。
在網友的進一步詢問之下,Alex解釋了推文中“work”的具體含義:原先在4k長度時就會出現的噪聲,現在已經消失了。
而對于SE窗口長度的極限,一位根據論文復現SE代碼的大佬表示,理論上(只要算力足夠)可以達到無限長。
那么,SE具體能達到什么樣的效果呢?
長文本能力顯著增強在窗口長度從4096增長到1
原文鏈接:四行代碼讓大模型上下文暴增3倍,羊駝Mistral都適用
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...