標簽:架構
首款采用 AMD 技術的 AI PC 即將登場
聯合變局 x86 進軍 AI PC 時代五月,微軟向全世界介紹了一個專為 AI 體驗而設計的全新 Windows PC 品類:Windows 11 AI + PC,并將其描述為更快、更智能的 Wi...
神經網絡架構「殊途同歸」?ICML 2024論文:模型不同,但學習內容相同
新智元報道編輯:喬楊 【新智元導讀】深度神經網絡有多種規模和架構,大家普遍認為這會影響到模型學習到的抽象表示。然而,UCL兩位學者發表在ICML 2024上第一...
Mamba真比Transformer更優嗎?Mamba原作者:兩個都要!混合架構才是最優解
新智元報道編輯:喬楊 【新智元導讀】Mamba模型由于匹敵Transformer的巨大潛力,在推出半年多的時間內引起了巨大關注。但在大規模預訓練的場景下,這兩個架構...
H100利用率飆升至75%!英偉達親自下場FlashAttention三代升級,比標準注意力快16倍
明敏 克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大模型訓練推理神作,又更新了! 主流大模型都在用的FlashAttention,剛剛升級第三代。 時隔一年,FlashAtten...
英偉達AMD差點合并,老黃提了個條件,結果黃了
西風 發自 凹非寺量子位 | 公眾號 QbitAI在AI浪潮中贏麻了的英偉達,如今市值已達3.1萬億,遠超另外兩家芯片巨頭AMD和英特爾。 但一則內幕爆料引起熱議: 英...
100天后,階躍星辰交出了第二份答卷
從「走路入場」到「跑步前進」,階躍星辰要加速奔向AGI了。作者|房曉楠 編輯|陳彩嫻 今年 3 月,「借著」 2024 全球開發者先鋒大會的場子,「國內最后一家...
Llama也能做圖像生成!港大字節推出開源自回歸文生圖模型,在線體驗已開放
LlamaGen團隊 投稿量子位 | 公眾號 QbitAI只需Image Tokenizer,Llama也能做圖像生成了,而且效果超過了擴散模型。 來自港大和字節的研究人員,提出了基于自...
?端側模型打響突圍戰!VC 瘋搶,又一創企“殺”出
6 月,三筆巨額融資掀開大模型戰事新篇章。 前腳,加拿大 Cohere 以 50 億美元估值攬獲 4.5 億美元融資,英偉達、思科助力;后腳,法國 Mistral AI 喜提 6 億...
「地表最快」 AI 芯片發布,哈佛輟學的本科生挑戰英偉達
Etched Sohu AI 芯片問世在談到 AI、大模型、算力等關鍵詞時,如果要提及硬件產品,很多人應該會不假思索的說出英偉達。 一位華爾街分析師曾如此評論到: 人...
拯救Transformer推理能力!DeepMind新研究TransNAR:給模型嵌入「算法推理大腦」
新智元報道編輯:喬楊 好困 【新智元導讀】DeepMind最近發表的一篇論文提出用混合架構的方法解決Transformer模型的推理缺陷。將Transformer的NLU技能與基于GN...
3D 版 SORA 來了!DreamTech 推出全球首個原生 3D-DiT 大模型 Direct3D
機器之心發布 機器之心編輯部2024 年 5 月,DreamTech 官宣了其高質量 3D 生成大模型 Direct3D,并公開了相關學術論文 Direct3D: Scalable Image-to-3D Gener...
AI研究的主要推動力會是什么?ChatGPT團隊研究科學家:算力成本下降
機器之心報道 編輯:PandaAI 研究發展的主要推動力是什么?在最近的一次演講中,OpenAI 研究科學家 Hyung Won Chung 給出了自己的答案。 近日,斯坦福大學《C...
萬字長文!AI Agent架構概況:關于推理、規劃和工具調用
??直播預告 | 6月18日上午10點,「智猩猩AI新青年講座」第240講正式開講,邀請到德州大學奧斯汀分校劉星超博士將直播講解《利用直線概率流加速Stable Diffusi...
Latte一作馬鑫:DiT架構在視頻生成模型中的應用與擴展 | 講座預告
「智猩猩AI新青年講座」由智猩猩出品,致力于邀請青年學者,主講他們在生成式AI、LLM、AI Agent、CV等人工智能領域的最新重要研究成果。 AI新青年是加速人工...
用神經架構搜索給LLM瘦身,模型變小,準確度有時反而更高
機器之心報道 編輯:Panda用神經架構搜索給 LLM 瘦身,同等準確度可讓 LLaMA2-7B 模型大小降 2 倍。大型語言模型(LLM)的一個主要特點是「大」,也因此其訓...