標簽:注意力
WPS接入DeepSeek,秒變辦公神器!
WPS 大家經(jīng)常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
AI賺錢副業(yè)~AI生成影視解說,半個月漲粉變現(xiàn)3.5W+!
這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發(fā)現(xiàn)...
NeurIPS 2024 | 自我糾錯如何使OpenAI o1推理能力大大加強?北大、MIT團隊給出理論解釋
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
14天速成LLM高手!大佬開源學習筆記,GitHub狂攬700星
新智元報道編輯:LRS 【新智元導讀】一位AI從業(yè)者分享的14天學習路線圖,涵蓋大模型從基礎(chǔ)到高級的主要關(guān)鍵概念!無論是面試找工作、還是自學創(chuàng)業(yè),甚至想要...
Make U-Nets Great Again!北大&華為提出擴散架構(gòu)U-DiT,六分之一算力即可超越DiT
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現(xiàn)最高8倍吞吐率提升
機器之心發(fā)布 機器之心編輯部隨著大語言模型在長文本場景下的需求不斷涌現(xiàn),其核心的注意力機制(Attention Mechanism)也獲得了非常多的關(guān)注。 注意力機制會...
微軟清華改進Transformer:用降噪耳機原理升級注意力,一作在線答疑
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAITransformer自問世后就大放異彩,但有個小毛病一直沒解決: 總愛把注意力放在不相關(guān)的內(nèi)容上,也就是信噪比低。 現(xiàn)在...
意識理論之注意的伴隨放電(CODAM)模型(一)
來源:本來實驗室 概要 CODAM模型,即Corollary Discharge of Attention Movement模型,是由John G. Taylor等人提出的一種神經(jīng)網(wǎng)絡模型,其目的是解釋意識體...
大模型壓縮KV緩存新突破,中科大提出自適應預算分配,工業(yè)界已落地vLLM框架
中科大博士馮源 投稿量子位 | 公眾號 QbitAI改進KV緩存壓縮,大模型推理顯存瓶頸迎來新突破—— 中科大研究團隊提出Ada-KV,通過自適應預算分配算法來優(yōu)化KV緩...
7B新王!Zamba 2完勝同級模型,推理效率比Llama 3提升20%,內(nèi)存用量更少
新智元報道編輯:LRS 【新智元導讀】Zamba2-7B是一款小型語言模型,在保持輸出質(zhì)量的同時,通過創(chuàng)新架構(gòu)實現(xiàn)了比同類模型更快的推理速度和更低的內(nèi)存占用,在...
英偉達nGPT重塑Transformer,AI訓練速度暴增20倍!文本越長,加速越快
新智元報道編輯:桃子 LRS 【新智元導讀】LLM訓練速度還可以再飆升20倍!英偉達團隊祭出全新架構(gòu)歸一化Transformer(nGPT),上下文越長,訓練速度越快,還能...
又快又準,即插即用!清華8比特量化Attention,兩倍加速于FlashAttention2,各端到端任務均不掉點!
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
Jurgen、曼寧等大佬新作:MoE重塑6年前的Universal Transformer,高效升級
機器之心報道 編輯:杜偉、蛋醬7 年前,谷歌在論文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年,谷歌又發(fā)布了 Unive...
性能不輸SOTA,計算量僅DiT一半!T2X任務新范式來了 | 中山大學&360 AI Research
Qihoo-T2X團隊 投稿量子位 | 公眾號 QbitAI性能不輸SOTA模型,計算開銷卻更低了—— 中山大學和360 AI Research聯(lián)合推出PT-DiT,同參數(shù)規(guī)模下,計算量僅為DiT的...
北大林宙辰團隊全新混合序列建模架構(gòu)MixCon:性能遠超Mamba
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
NeurIPS 2024 | Transformer長度外推,全新位置編碼DAPE大幅提升模型性能
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
這篇論文非常火!差分Transformer竟能消除注意力噪聲,猶如降噪耳機
機器之心報道 編輯:PandaTransformer 的強大實力已經(jīng)在諸多大型語言模型(LLM)上得到了證明,但該架構(gòu)遠非完美,也有很多研究者致力于改進這一架構(gòu),比如機...