標簽:長度
2行代碼,「三體」一次讀完!港中文賈佳亞團隊聯手MIT發布超長文本擴展技術,打破LLM遺忘魔咒
新智元報道編輯:好困 桃子【新智元導讀】大模型上下文從此不再受限!港中文賈佳亞團隊聯手MIT發布了全新超長文本擴展技術LongLoRA,只需2行代碼,讓LLM看小...
將LLaMA2上下文擴展至100k,MIT、港中文有了LongLoRA方法
機器之心報道機器之心編輯部無需過多計算資源即可擴展大模型上下文長度。一般來說,大模型預訓練時文本長度是固定的,如果想要支持更長文本,就需要對模型進...
賈佳亞韓松團隊新作:兩行代碼讓大模型上下文窗口倍增 | GitHub熱榜
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只要兩行代碼+11個小時微調,就能把大模型4k的窗口長度提高到32k。規模上,最長可以擴展到10萬token,一口氣就能讀...
大模型長上下文運行的關鍵問題
上下文長度的增加是 LLM 的一個顯著發展趨勢。過去一年,幾種長上下文語言模型陸續問世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic...
視覺Transformer中ReLU替代softmax,DeepMind新招讓成本速降
機器之心報道編輯:PandaDeepmind 出新招,ReLU 盡展優勢。Transformer 架構已經在現代機器學習領域得到了廣泛的應用。注意力是 transformer 的一大核心組件...
輸入文本就能生成音樂,Stability AI發布音樂生成工具Stable Audio
Stability AI 是一家專注于開源 AI 模型的創業公司,其旗下的 Stable Diffusion 是如今最好的圖片生成AI之一。9月14日,著名開源平臺Stability AI在官網發布...