標簽:上下文
把LLM視作操作系統,它就擁有了無限「虛擬」上下文,伯克利新作已攬1.7k star
機器之心報道編輯:杜偉、小舟當前,讓大語言模型擁有更強的上下文處理能力是業界非常看重的熱點主題之一。本文中,加州大學伯克利分校的研究者將 LLM 與操作...
「Meta版ChatGPT」背后的技術:想讓基礎LLM更好地處理長上下文,只需持續預訓練
機器之心報道編輯:Panda W在處理長上下文方面,LLaMA 一直力有不足,而通過持續預訓練和其它一些方法改進,Meta 的這項研究成功讓 LLM 具備了有效理解上下文...
別再「浪費」GPU了,FlashAttention重磅升級,實現長文本推理速度8倍提升
機器之心報道機器之心編輯部處理小說、法律文件等長文本是大模型的一個重要應用方向,但也面臨速度上的挑戰。FlashAttention 作者 Tri Dao 等人提出的「Flash...
AI天才楊植麟交卷大模型產品,特點:長長長長長
衡宇 發自 凹非寺量子位 | 公眾號 QbitAI千億參數大模型,支持輸入的長文本首次達20萬字!在任何規模的大模型產品化隊伍中,這個長度堪稱目前的全球最長。用...
支持20萬字輸入,月之暗面楊植麟:千億大模型進入“長文本”時代 | 甲子光年
一口氣讀完一本《三體》。作者|趙健在百模大戰當下,誰會是中國的OpenAI?今年6月,科技媒體The Information盤點了中國AI初創企業Top5,分別為MiniMax、瀾舟...
大模型開啟「長」時代,楊植麟的新公司把對話框容量做到了世界第一
機器之心原創作者:張倩雖然我們不知道誰是下一個 OpenAI,但是似乎找到了另一個 Anthropic。最近,大模型創投領域又發生了一件大事:大模型初創公司 Anthrop...
全球首個支持輸入20萬字的大模型來了!一口氣讀幾十個文檔、一本20萬字的小說
作者丨李揚霞編輯丨陳彩嫻10月9日,由楊植麟創立的?之暗?,發布大模型產品——Moonshot AI,以及搭載該模型的智能助?Kimi Chat,是全球首個支持20萬字輸??...
融資超2億美元,月之暗面發布超長文本模型產品,目標C端Super-App
國內大模型最神秘的創業公司之一,月之暗面 Moonshot AI 終于發布了第一款模型和產品。這是一家有著很多光環的大模型創業公司,創始人楊植麟曾就職于 FAIR 和...
Hugging Face 大語言模型優化技術
作者 | Sergio De Simone 譯者 | 明知山 策劃 | 丁曉昀 大語言模型的生產部署存在兩個主要的挑戰,一個是需要大量的參數,一個是需要處理非常長的用于表示上...
將LLaMA2上下文擴展至100k,MIT、港中文有了LongLoRA方法
機器之心報道機器之心編輯部無需過多計算資源即可擴展大模型上下文長度。一般來說,大模型預訓練時文本長度是固定的,如果想要支持更長文本,就需要對模型進...
西交、清華等發布多模態大模型,有望成為「DALL·E 4」技術路線?和AI一起「白日作夢」
新智元報道編輯:LRS【新智元導讀】DALL·E 3讓我們看到了生成+理解的大語言模型的魔力。就在其發布的同一天,國內的一個新工作引起了社區的關注:DreamLLM。D...
最強LLaMA突然來襲!只改一個超參數,實現上下文3.2萬token,多個任務打敗ChatGPT、Claude 2
明敏 豐色 發自 凹非寺量子位 | 公眾號 QbitAI悄無聲息,羊駝家族“最強版”來了!與GPT-4持平,上下文長度達3.2萬token的LLaMA 2 Long,正式登場。在性能上全...
大模型長上下文運行的關鍵問題
上下文長度的增加是 LLM 的一個顯著發展趨勢。過去一年,幾種長上下文語言模型陸續問世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic...
Transformer的上下文學習能力是哪來的?
機器之心報道機器之心編輯部有理論基礎,我們就可以進行深度優化了。為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learn...
突破大型語言模型輸入字符限制的方法有了!
夕小瑤科技說 分享來源 | 機器之心我們知道在使用 GPT 和 LLaMA 等大型語言模型時,輸入的 prompt 存在字符數限制,比如 ChatGPT 目前的輸入字符限制是 4096 ...