標(biāo)簽：線性

知名AI研究者深挖谷歌Gemma：參數(shù)不止70億，設(shè)計(jì)原則很獨(dú)特

機(jī)器之心報(bào)道編輯：陳萍、杜偉想要了解谷歌 Gemma 與 Llama 2、Mistral 有哪些異同嗎？這篇文章值得一讀。就在幾天前，開(kāi)源大模型領(lǐng)域迎來(lái)了重磅新玩家：谷...

2年前 (2024)

機(jī)器之心專(zhuān)欄機(jī)器之心編輯部Transformer 在大模型領(lǐng)域的地位可謂是難以撼動(dòng)。不過(guò)，這個(gè)AI 大模型的主流架構(gòu)在模型規(guī)模的擴(kuò)展和需要處理的序列變長(zhǎng)后，局限...

2年前 (2024)

機(jī)器之心專(zhuān)欄機(jī)器之心編輯部Lightning Attention-2 是一種新型的線性注意力機(jī)制，讓長(zhǎng)序列的訓(xùn)練和推理成本與 1K 序列長(zhǎng)度的一致。大語(yǔ)言模型序列長(zhǎng)度的限...

2年前 (2024)

機(jī)器之心專(zhuān)欄作者：韓東辰來(lái)自清華大學(xué)的研究者提出了一種新的注意力范式——代理注意力 (Agent Attention)。近年來(lái)，視覺(jué) Transformer 模型得到了極大的發(fā)展...

2年前 (2023)

機(jī)器之心報(bào)道編輯：張倩、蛋醬屹立不倒的 Transformer 迎來(lái)了一個(gè)強(qiáng)勁競(jìng)爭(zhēng)者。在別的領(lǐng)域，如果你想形容一個(gè)東西非常重要，你可能將其形容為「撐起了某領(lǐng)域的...

2年前 (2023)

機(jī)器之心報(bào)道編輯：蛋醬難道 Transformer注定無(wú)法解決「訓(xùn)練數(shù)據(jù)」之外的新問(wèn)題？說(shuō)起大語(yǔ)言模型所展示的令人印象深刻的能力，其中之一就是通過(guò)提供上下文中...

2年前 (2023)

新智元報(bào)道編輯：潤(rùn) alan【新智元導(dǎo)讀】Transformer模型是否能夠泛化出新的認(rèn)知和能力？最近，谷歌的研究人員進(jìn)行了有關(guān)實(shí)驗(yàn)，對(duì)于這一問(wèn)題給出了自己的答案...

2年前 (2023)

西風(fēng) 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI豆瓣評(píng)分9.2、斯坦福都在用的線性代數(shù)教材，全新第四版免費(fèi)來(lái)襲！沒(méi)錯(cuò)，就是那本被認(rèn)為“直擊線性代數(shù)理論核心”的Line...

2年前 (2023)

機(jī)器之心報(bào)道編輯：大盤(pán)雞這樣學(xué)，還能那樣學(xué)。人類(lèi)的大腦具有學(xué)習(xí)新事物的能力，而且學(xué)習(xí)方式多種多樣，從模仿他人到觀看在線解說(shuō)視頻，不一而足。如果機(jī)器...

2年前 (2023)