標(biāo)簽:注意力

清華微軟最新力作:用物理學(xué)革新Transformer注意力,「大海撈針」精度暴漲30%!

新智元報道編輯:喬楊 好困 【新智元導(dǎo)讀】隨著諾貝爾物理學(xué)獎頒給了「機(jī)器學(xué)習(xí)之父」Geoffrey Hinton,另一個借鑒物理學(xué)概念的模型架構(gòu)也橫空出世——微軟清華...
閱讀原文

Sebastian Raschka最新博客:從頭開始,用Llama 2構(gòu)建Llama 3.2

機(jī)器之心報道 編輯:蛋醬十天前的 Meta Connect 2024 大會上,開源領(lǐng)域迎來了可在邊緣和移動設(shè)備上的運(yùn)行的輕量級模型 Llama 3.2 1B 和 3B。兩個版本都是純文...
閱讀原文

告別CUDA無需Triton!Mirage零門檻生成PyTorch算子,人均GPU編程大師?

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

開源!上海AI Lab視頻生成大模型書生·筑夢 2.0來了

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

Sigmoid注意力一樣強(qiáng),蘋果開始重新審視注意力機(jī)制

機(jī)器之心報道 機(jī)器之心編輯部注意力是 Transformer 架構(gòu)的關(guān)鍵部分,負(fù)責(zé)將每個序列元素轉(zhuǎn)換為值的加權(quán)和。將查詢與所有鍵進(jìn)行點(diǎn)積,然后通過 softmax 函數(shù)歸...
閱讀原文

任意論文一鍵變播客,谷歌正式發(fā)布Illuminate,它能重構(gòu)研究者的學(xué)習(xí)方式嗎?

機(jī)器之心報道 編輯:陳陳、蛋醬像聽書一樣「讀」論文。?先來聽一段英文播客,內(nèi)容是不是很熟悉?是的,這倆人就是在聊那篇《Attention is All You Need》。在...
閱讀原文

Mamba作者新作:將Llama3蒸餾成混合線性 RNN

機(jī)器之心報道 機(jī)器之心編輯部Transformer 在深度學(xué)習(xí)領(lǐng)域取得巨大成功的關(guān)鍵是注意力機(jī)制。注意力機(jī)制讓基于 Transformer 的模型關(guān)注與輸入序列相關(guān)的部分,...
閱讀原文

多虧Transformer,Mamba更強(qiáng)了!僅用1%計算量達(dá)新SOTA

明敏 發(fā)自 凹非寺量子位 | 公眾號 QbitAIAttention is all you need. 至少在矩陣這兒是。 Mamba架構(gòu)最新進(jìn)展:僅需1%計算量,新模型性能達(dá)SOTA。 能做到這一...
閱讀原文

機(jī)器人策略學(xué)習(xí)的Game Changer?伯克利提出Body Transformer

機(jī)器之心報道 編輯:Panda過去幾年間,Transformer 架構(gòu)已經(jīng)取得了巨大的成功,同時其也衍生出了大量變體,比如擅長處理視覺任務(wù)的 Vision Transformer(ViT...
閱讀原文

30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI跨GPU的注意力并行,最高提速8倍,支持512萬序列長度推理。 環(huán)注意力(Ring Attention)后繼者——樹注意力(Tree Atte...
閱讀原文

新PyTorch API:幾行代碼實現(xiàn)不同注意力變體,兼具FlashAttention性能和PyTorch靈活性

機(jī)器之心報道 編輯:陳陳用 FlexAttention 嘗試一種新的注意力模式。理論上,注意力機(jī)制就是你所需要的一切。然而在實際操作中,我們還需要優(yōu)化像 FlashAtten...
閱讀原文

iPhone 新增「滅霸」功能,去廣告更絲滑了

滅霸出現(xiàn) 瀏覽器 至此干凈一個稍微有些年頭的梗: 在互聯(lián)網(wǎng)出現(xiàn)之前,最小的粒子是夸克,在互聯(lián)網(wǎng)出現(xiàn)之后,最小的粒子是廣告上的那個叉。 現(xiàn)在,蘋果打算將...
閱讀原文

三大流派與熱點(diǎn)技術(shù)!一文看懂小模型與端側(cè)模型

9月6-7日,2024全球AI芯片峰會將在北京召開。目前,AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng),清華大學(xué)交叉信息研究院助理教授、北極雄芯創(chuàng)始人馬愷聲,珠海芯動力創(chuàng)...
閱讀原文

斯坦福博士圖解AlphaFold 3:超多細(xì)節(jié)+可視化還原ML工程師眼中的AF3

新智元報道編輯:喬楊 庸庸 【新智元導(dǎo)讀】AlphaFold 3的論文太晦澀?沒關(guān)系,斯坦福大學(xué)的兩位博士生「圖解」AlphaFold 3 ,將模型架構(gòu)可視化,同時不遺漏任...
閱讀原文

清華大合斯坦福大學(xué)提出混合注意力機(jī)制MoA,大模型解碼速率提高6倍

夕小瑤科技說 原創(chuàng)作者 | Richard 隨著大語言模型的規(guī)模不斷擴(kuò)大,如何在保持模型性能的同時提高其效率,成為了當(dāng)前研究的熱點(diǎn)問題。最近,清華大學(xué)聯(lián)合斯坦...
閱讀原文
12348