標簽:注意力

清華微軟最新力作:用物理學革新Transformer注意力,「大海撈針」精度暴漲30%!

新智元報道編輯:喬楊 好困 【新智元導讀】隨著諾貝爾物理學獎頒給了「機器學習之父」Geoffrey Hinton,另一個借鑒物理學概念的模型架構也橫空出世——微軟清華...
閱讀原文

Sebastian Raschka最新博客:從頭開始,用Llama 2構建Llama 3.2

機器之心報道 編輯:蛋醬十天前的 Meta Connect 2024 大會上,開源領域迎來了可在邊緣和移動設備上的運行的輕量級模型 Llama 3.2 1B 和 3B。兩個版本都是純文...
閱讀原文

告別CUDA無需Triton!Mirage零門檻生成PyTorch算子,人均GPU編程大師?

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

開源!上海AI Lab視頻生成大模型書生·筑夢 2.0來了

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

Sigmoid注意力一樣強,蘋果開始重新審視注意力機制

機器之心報道 機器之心編輯部注意力是 Transformer 架構的關鍵部分,負責將每個序列元素轉換為值的加權和。將查詢與所有鍵進行點積,然后通過 softmax 函數歸...
閱讀原文

任意論文一鍵變播客,谷歌正式發布Illuminate,它能重構研究者的學習方式嗎?

機器之心報道 編輯:陳陳、蛋醬像聽書一樣「讀」論文。?先來聽一段英文播客,內容是不是很熟悉?是的,這倆人就是在聊那篇《Attention is All You Need》。在...
閱讀原文

Mamba作者新作:將Llama3蒸餾成混合線性 RNN

機器之心報道 機器之心編輯部Transformer 在深度學習領域取得巨大成功的關鍵是注意力機制。注意力機制讓基于 Transformer 的模型關注與輸入序列相關的部分,...
閱讀原文

多虧Transformer,Mamba更強了!僅用1%計算量達新SOTA

明敏 發自 凹非寺量子位 | 公眾號 QbitAIAttention is all you need. 至少在矩陣這兒是。 Mamba架構最新進展:僅需1%計算量,新模型性能達SOTA。 能做到這一...
閱讀原文

機器人策略學習的Game Changer?伯克利提出Body Transformer

機器之心報道 編輯:Panda過去幾年間,Transformer 架構已經取得了巨大的成功,同時其也衍生出了大量變體,比如擅長處理視覺任務的 Vision Transformer(ViT...
閱讀原文

30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI跨GPU的注意力并行,最高提速8倍,支持512萬序列長度推理。 環注意力(Ring Attention)后繼者——樹注意力(Tree Atte...
閱讀原文

新PyTorch API:幾行代碼實現不同注意力變體,兼具FlashAttention性能和PyTorch靈活性

機器之心報道 編輯:陳陳用 FlexAttention 嘗試一種新的注意力模式。理論上,注意力機制就是你所需要的一切。然而在實際操作中,我們還需要優化像 FlashAtten...
閱讀原文

iPhone 新增「滅霸」功能,去廣告更絲滑了

滅霸出現 瀏覽器 至此干凈一個稍微有些年頭的梗: 在互聯網出現之前,最小的粒子是夸克,在互聯網出現之后,最小的粒子是廣告上的那個叉。 現在,蘋果打算將...
閱讀原文

三大流派與熱點技術!一文看懂小模型與端側模型

9月6-7日,2024全球AI芯片峰會將在北京召開。目前,AMD人工智能事業部高級總監王宏強,清華大學交叉信息研究院助理教授、北極雄芯創始人馬愷聲,珠海芯動力創...
閱讀原文

斯坦福博士圖解AlphaFold 3:超多細節+可視化還原ML工程師眼中的AF3

新智元報道編輯:喬楊 庸庸 【新智元導讀】AlphaFold 3的論文太晦澀?沒關系,斯坦福大學的兩位博士生「圖解」AlphaFold 3 ,將模型架構可視化,同時不遺漏任...
閱讀原文

清華大合斯坦福大學提出混合注意力機制MoA,大模型解碼速率提高6倍

夕小瑤科技說 原創作者 | Richard 隨著大語言模型的規模不斷擴大,如何在保持模型性能的同時提高其效率,成為了當前研究的熱點問題。最近,清華大學聯合斯坦...
閱讀原文