標(biāo)簽:線性
知名AI研究者深挖谷歌Gemma:參數(shù)不止70億,設(shè)計(jì)原則很獨(dú)特
機(jī)器之心報(bào)道 編輯:陳萍、杜偉想要了解谷歌 Gemma 與 Llama 2、Mistral 有哪些異同嗎?這篇文章值得一讀。就在幾天前,開(kāi)源大模型領(lǐng)域迎來(lái)了重磅新玩家:谷...
視覺(jué)Mamba模型的Swin時(shí)刻,中國(guó)科學(xué)院、華為等推出VMamba
機(jī)器之心專(zhuān)欄 機(jī)器之心編輯部Transformer 在大模型領(lǐng)域的地位可謂是難以撼動(dòng)。不過(guò),這個(gè)AI 大模型的主流架構(gòu)在模型規(guī)模的擴(kuò)展和需要處理的序列變長(zhǎng)后,局限...
?新一代注意力機(jī)制Lightning Attention-2:無(wú)限序列長(zhǎng)度、恒定算力開(kāi)銷(xiāo)、更高建模精度
機(jī)器之心專(zhuān)欄 機(jī)器之心編輯部Lightning Attention-2 是一種新型的線性注意力機(jī)制,讓長(zhǎng)序列的訓(xùn)練和推理成本與 1K 序列長(zhǎng)度的一致。 大語(yǔ)言模型序列長(zhǎng)度的限...
Softmax注意力與線性注意力的優(yōu)雅融合,Agent Attention推動(dòng)注意力新升級(jí)
機(jī)器之心專(zhuān)欄 作者:韓東辰來(lái)自清華大學(xué)的研究者提出了一種新的注意力范式——代理注意力 (Agent Attention)。近年來(lái),視覺(jué) Transformer 模型得到了極大的發(fā)展...
五倍吞吐量,性能全面包圍Transformer:新架構(gòu)Mamba引爆AI圈
機(jī)器之心報(bào)道編輯:張倩、蛋醬屹立不倒的 Transformer 迎來(lái)了一個(gè)強(qiáng)勁競(jìng)爭(zhēng)者。在別的領(lǐng)域,如果你想形容一個(gè)東西非常重要,你可能將其形容為「撐起了某領(lǐng)域的...
DeepMind指出「Transformer無(wú)法超出預(yù)訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)泛化」,但有人投來(lái)質(zhì)疑
機(jī)器之心報(bào)道編輯:蛋醬難道 Transformer注定無(wú)法解決「訓(xùn)練數(shù)據(jù)」之外的新問(wèn)題?說(shuō)起大語(yǔ)言模型所展示的令人印象深刻的能力,其中之一就是通過(guò)提供上下文中...
谷歌DeepMind力證:GPT-4終局是人類(lèi)智慧總和!Transformer模型無(wú)法超越訓(xùn)練數(shù)據(jù)進(jìn)行泛化
新智元報(bào)道編輯:潤(rùn) alan【新智元導(dǎo)讀】Transformer模型是否能夠泛化出新的認(rèn)知和能力?最近,谷歌的研究人員進(jìn)行了有關(guān)實(shí)驗(yàn),對(duì)于這一問(wèn)題給出了自己的答案...
豆瓣9分線代教材免費(fèi)了!斯坦福伯克利都在用,新版PDF直接下載
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI豆瓣評(píng)分9.2、斯坦福都在用的線性代數(shù)教材,全新第四版免費(fèi)來(lái)襲!沒(méi)錯(cuò),就是那本被認(rèn)為“直擊線性代數(shù)理論核心”的Line...
從觀察、思考到行動(dòng),深度強(qiáng)化學(xué)牛Pieter Abbeel談如何馴服機(jī)器人
機(jī)器之心報(bào)道編輯:大盤(pán)雞這樣學(xué),還能那樣學(xué)。人類(lèi)的大腦具有學(xué)習(xí)新事物的能力,而且學(xué)習(xí)方式多種多樣,從模仿他人到觀看在線解說(shuō)視頻,不一而足。如果機(jī)器...