標簽:注意力

PyTorch官方認可!斯坦福博士新作:長上下文LLM推理速度提8倍

豐色 發自 凹非寺量子位 | 公眾號 QbitAI這兩天,FlashAttention團隊推出了新作:一種給Transformer架構大模型推理加速的新方法,最高可提速8倍。該方法尤其...
閱讀原文

別再「浪費」GPU了,FlashAttention重磅升級,實現長文本推理速度8倍提升

機器之心報道機器之心編輯部處理小說、法律文件等長文本是大模型的一個重要應用方向,但也面臨速度上的挑戰。FlashAttention 作者 Tri Dao 等人提出的「Flash...
閱讀原文

“最強7B模型”論文發布,揭秘如何超越13B版Llama 2

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI來自“歐洲OpenAI”的“最強7B開源模型”Mistral最近可謂是圈粉無數。它各方面的測試指標全面超越了13B的Llama2,甚至...
閱讀原文

最多400萬token上下文、推理提速22倍,StreamingLLM火了,已獲GitHub 2.5K星

機器之心報道編輯:蛋醬如果你體驗過與任何一款對話式 AI 機器人的交流,你一定能想起某些極具「挫敗感」的時刻。比如,你在前一天的對話中講述過的要點,被 ...
閱讀原文

400萬token,大模型推理飆升22倍!清華校友爆火一作,GitHub狂攬1.8k星

新智元報道編輯:潤【新智元導讀】大模型上下文限制不是事兒?大語言模型的上下文長度限制從此不存在了?!Meta、MIT、CMU的研究者最近剛剛發表了一篇論文,...
閱讀原文

以3D視角洞悉矩陣乘法,這就是AI思考的樣子

選自PyTorch機器之心編譯如果能以 3D 方式展示矩陣乘法的執行過程,當年學習矩陣乘法時也就不會那么吃力了。現如今,矩陣乘法已經成為機器學習模型的構建模塊...
閱讀原文

賈佳亞韓松團隊新作:兩行代碼讓大模型上下文窗口倍增 | GitHub熱榜

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只要兩行代碼+11個小時微調,就能把大模型4k的窗口長度提高到32k。規模上,最長可以擴展到10萬token,一口氣就能讀...
閱讀原文

一文捋清大模型可解釋性,中美多家研究機構聯合發布綜述

夕小瑤科技說 分享來源 | 機器之心大規模語言模型在自然語言處理方面展現出令人驚訝的推理能力,但其內在機理尚不清晰。隨著大規模語言模型的廣泛應用,闡明...
閱讀原文

大模型可解釋性你能理得清嗎?綜述已來,一文解你疑惑

機器之心專欄機器之心編輯部大規模語言模型在自然語言處理方面展現出令人驚訝的推理能力,但其內在機理尚不清晰。隨著大規模語言模型的廣泛應用,闡明模型的...
閱讀原文

6.7k Star量的vLLM出論文了,讓每個人都能輕松快速低成本地部署LLM服務

機器之心專欄編輯:Panda利用操作系統的虛擬內存管理方法來提升LLM推理吞吐量。今年六月,來自加州大學伯克利分校等機構的一個研究團隊開源了(目前已有 6700...
閱讀原文

大模型長上下文運行的關鍵問題

上下文長度的增加是 LLM 的一個顯著發展趨勢。過去一年,幾種長上下文語言模型陸續問世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic...
閱讀原文

視覺Transformer中ReLU替代softmax,DeepMind新招讓成本速降

機器之心報道編輯:PandaDeepmind 出新招,ReLU 盡展優勢。Transformer 架構已經在現代機器學習領域得到了廣泛的應用。注意力是 transformer 的一大核心組件...
閱讀原文
1678