AIGC動態歡迎閱讀
原標題:Meta無限長文本大模型來了:參數僅7B,已開源
關鍵字:報告,注意力,上下文,序列,長上
文章來源:機器之心
內容字數:7261字
內容摘要:
機器之心報道
編輯:澤南、陳萍谷歌之后,Meta 也來卷無限長上下文。Transformers 的二次復雜度和弱長度外推限制了它們擴展到長序列的能力,雖然存在線性注意力和狀態空間模型等次二次解決方案,但從以往的經驗來看,它們在預訓練效率和下游任務準確性方面表現不佳。
長文本是大語言模型一直在努力的方向。近日,谷歌提出的 Infini-Transformer 引入有效方法,可以將基于 Transformer 的大型語言模型 (LLM) 擴展到無限長輸入,而不增加內存和計算需求,吸引了人們的關注。
幾乎就在同時,Meta 也提出了一種無限長文本技術。論文地址:https://arxiv.org/pdf/2404.08801.pdf
論文標題:MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
代碼:https://github.com/XuezheMax/megalodon
在 4 月 12 日提交的一篇論文中,來自 Meta、南加州大學、CMU、UCSD 等公司、機構引入了 ME
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...