標(biāo)簽:線性

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經(jīng)常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓W(xué)PS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業(yè)~AI生成影視解說,半個(gè)月漲粉變現(xiàn)3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機(jī)會還是有的,但問題不在于有沒有,而在于你是否能夠認(rèn)準(zhǔn)機(jī)會,然后抓住它。 接觸過很多咨詢項(xiàng)目的人,發(fā)現(xiàn)...

邁向復(fù)現(xiàn) OpenAI o1 的一小步:Steiner 開源模型階段性進(jìn)展報(bào)告

講座預(yù)告11月1日上午10點(diǎn),南開大學(xué)在讀博士李森茂,將以《基于擴(kuò)散模型編碼器模塊的推理加速》為主題進(jìn)行直播講解,歡迎掃碼報(bào)名~導(dǎo)讀作者為季逸超 原文來自...
閱讀原文

Mamba作者新作:將Llama3蒸餾成混合線性 RNN

機(jī)器之心報(bào)道 機(jī)器之心編輯部Transformer 在深度學(xué)習(xí)領(lǐng)域取得巨大成功的關(guān)鍵是注意力機(jī)制。注意力機(jī)制讓基于 Transformer 的模型關(guān)注與輸入序列相關(guān)的部分,...
閱讀原文

如何讓等變神經(jīng)網(wǎng)絡(luò)可解釋性更強(qiáng)?試試將它分解成「簡單表示」

機(jī)器之心報(bào)道 編輯:Panda神經(jīng)網(wǎng)絡(luò)是一種靈活且強(qiáng)大的函數(shù)近似方法。而許多應(yīng)用都需要學(xué)習(xí)一個(gè)相對于某種對稱性不變或等變的函數(shù)。圖像識別便是一個(gè)典型示例 ...
閱讀原文

斯坦福提出大模型最強(qiáng)架構(gòu)TTT,超越Transformers

夕小瑤科技說 原創(chuàng)作者 | 謝年年在Transformer被提出以前,以LSTMs為代表的RNNs網(wǎng)絡(luò)結(jié)構(gòu)由于計(jì)算簡單、擅長處理序列數(shù)據(jù)常被用作NLP領(lǐng)域的基礎(chǔ)架構(gòu)。但受其結(jié)...
閱讀原文

新架構(gòu)RNN反超Transformer:每個(gè)隱藏狀態(tài)都是一個(gè)模型,一作:從根本上改變語言模型

夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI新架構(gòu),再次向Transformer發(fā)起挑戰(zhàn)! 核心思想:將RNN中的隱藏狀態(tài)換成可學(xué)習(xí)的模型。 甚至在測試時(shí)都可以學(xué)習(xí),所...
閱讀原文

神經(jīng)網(wǎng)絡(luò)可能不再需要激活函數(shù)?Layer Normalization也具有非線性表達(dá)!

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

SSM 能取代 Transformer 搞出更「牛」的大模型嗎?

機(jī)器之心PRO · 會員通訊 Week 23---- 本周為您解讀 ③個(gè)值得細(xì)品的AI & Robotics業(yè)內(nèi)要事 ---- 1. SSM 能取代 Transformer 搞出更「牛」的大模型嗎? SSM ...
閱讀原文

新架構(gòu)Mamba更新二代!作者:別爭了,數(shù)學(xué)上Transformer和SSM是一回事

夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAITransformer挑戰(zhàn)者、新架構(gòu)Mamba,剛剛更新了第二代: Mamba-2,狀態(tài)空間擴(kuò)大8倍,訓(xùn)練速度提高50%! 更重要的是,團(tuán)...
閱讀原文

替代MLP的KAN,被開源項(xiàng)目擴(kuò)展到卷積了

機(jī)器之心報(bào)道 機(jī)器之心編輯部本月初,來自 MIT 等機(jī)構(gòu)的研究者提出了一種非常有潛力的 MLP 替代方法 ——KAN。 KAN 在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)于 MLP,而且...
閱讀原文

爆火后反轉(zhuǎn)?「一夜干掉MLP」的KAN:其實(shí)我也是MLP

機(jī)器之心報(bào)道 編輯:蛋醬、張倩KAN 作者:我想傳達(dá)的信息不是「KAN 很棒」,而是「嘗試批判性地思考當(dāng)前的架構(gòu),并尋求從根本上不同的替代方案,這些方案可以...
閱讀原文

CVPR‘24:與任務(wù)無關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能|港中文&騰訊

Yiyuan 投稿量子位 | 公眾號 QbitAI萬萬沒想到,與任務(wù)無直接關(guān)聯(lián)的多模態(tài)數(shù)據(jù)也能提升Transformer模型性能。 比如訓(xùn)練一個(gè)圖像分類模型,除了標(biāo)注好類別的圖...
閱讀原文

無向圖最小割問題取得新突破,谷歌研究獲SODA 2024最佳論文獎(jiǎng)

機(jī)器之心報(bào)道 機(jī)器之心編輯部谷歌博客放出新研究,求解無向圖的最小割問題。1996 年, 美國計(jì)算機(jī)科學(xué)家 David R Karger 連同其他研究者在論文《 A new appro...
閱讀原文

UC伯克利「LLM排位賽」結(jié)果出爐!Claude 3追平GPT-4并列第一

新智元報(bào)道編輯:潤 【新智元導(dǎo)讀】Claude 3不但數(shù)據(jù)集跑分領(lǐng)先,用戶體驗(yàn)上也將成為最強(qiáng)大的LLM,GPT-5在哪里?Claude 3和GPT-4到底誰厲害? 自從Claude 3發(fā)...
閱讀原文

如何從頭開始編寫LoRA代碼,這有一份教程

選自 lightning.ai 作者:Sebastian Raschka 機(jī)器之心編譯 編輯:陳萍作者表示:在各種有效的 LLM 微調(diào)方法中,LoRA 仍然是他的首選。LoRA(Low-Rank Adaptat...
閱讀原文

DeepMind攜Mamba華人作者推Transformer之作!性能暴漲媲美Llama 2,推理能效大幅碾壓

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】線性RNN贏了?近日,谷歌DeepMind一口氣推出兩大新架構(gòu),在d基準(zhǔn)測試中超越了Transformer。新架構(gòu)不僅保證了高效的訓(xùn)...
閱讀原文