標(biāo)簽:狀態(tài)

一文看懂Mamba,Transformer最強(qiáng)競爭者

機(jī)器之心報(bào)道 編輯:PandaMamba 雖好,但發(fā)展尚早。深度學(xué)習(xí)架構(gòu)有很多,但近些年最成功的莫過于 Transformer,其已經(jīng)在多個(gè)應(yīng)用領(lǐng)域確立了自己的主導(dǎo)地位。 ...
閱讀原文

大模型對語言有自己的理解!MIT論文揭示大模型“思維過程” | ICML 24

克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI大模型對現(xiàn)實(shí)世界,可以形成自己的理解! MIT的一項(xiàng)研究發(fā)現(xiàn),隨著模型能力越強(qiáng),它對現(xiàn)實(shí)的理解可能不僅是簡單模...
閱讀原文

蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調(diào)用,網(wǎng)友:Siri也要努力 | 開源

克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI蘋果團(tuán)隊(duì),又發(fā)布了新的開源成果——一套關(guān)于大模型工具調(diào)用能力的Benchmark。 這套Benchmark創(chuàng)新性地采用了場景化測...
閱讀原文

對吳恩達(dá) workflow 概念產(chǎn)品化的思考

大模型時(shí)代最火AI芯片峰會來啦!!9月6-7日,由芯東西聯(lián)合主辦的2024全球AI芯片峰會將在北京舉行。峰會設(shè)有數(shù)據(jù)中心AI芯片、智算集群等7大板塊。目前,AMD人...
閱讀原文

一文讀懂強(qiáng)化學(xué)習(xí)的 Q 學(xué)習(xí)算法

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自數(shù)據(jù)派THU 作者:陳之炎????本文介紹一篇收錄在《IEEE TRANSACTIONS ON INFORMATION THEORY》的論文。強(qiáng)化學(xué)習(xí)中的價(jià)值學(xué)習(xí)算法是一類重...
閱讀原文

超越 Transformer 與 Mamba,Meta 聯(lián)合斯坦福等高校推出最強(qiáng)架構(gòu) TTT

作者 | 趙明華 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人員提出了一種全新架構(gòu),用機(jī)器學(xué)習(xí)模型取代 RNN 的隱藏狀態(tài)。 圖 1 所有序列建模層都可以表示...
閱讀原文

新架構(gòu)RNN反超Transformer:每個(gè)隱藏狀態(tài)都是一個(gè)模型,一作:從根本上改變語言模型

夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI新架構(gòu),再次向Transformer發(fā)起挑戰(zhàn)! 核心思想:將RNN中的隱藏狀態(tài)換成可學(xué)習(xí)的模型。 甚至在測試時(shí)都可以學(xué)習(xí),所...
閱讀原文

大模型最強(qiáng)架構(gòu)TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】超越Transformer和Mamba的新架構(gòu),剛剛誕生了。斯坦福UCSD等機(jī)構(gòu)研究者提出的TTT方法,直接替代了注意力機(jī)制,語言模...
閱讀原文

經(jīng)典綜述:能原理——統(tǒng)一的大腦理論

導(dǎo)語自由能原理被認(rèn)為是“自達(dá)爾文自然選擇理論后最包羅萬象的思想”,從第一性原理出發(fā)解釋智能體更新認(rèn)知、探索和改變世界的機(jī)制,被認(rèn)為有可能成為智能的第...
閱讀原文

Q*項(xiàng)目公開發(fā)布!研究團(tuán)隊(duì)并非OpenAI

昆侖萬維 投稿量子位 | 公眾號 QbitAIQ*項(xiàng)目公開發(fā)布,可讓小模型達(dá)到參數(shù)量比其大數(shù)十倍、甚至上百倍模型的推理能力。 自去年11月伴隨著OpenAI內(nèi)訌,其神秘Q...
閱讀原文

今日arXiv最熱大模型論文:清華大學(xué):一個(gè)簡單縮放讓大模型利用長上下文能力提升15.2%

夕小瑤科技說 原創(chuàng)作者 | 謝年年 不知道大家發(fā)現(xiàn)沒有,一些大模型的提示技巧總是習(xí)慣將一些重要指令或信息放在提示的開頭或者結(jié)尾。 這是因?yàn)長LMs在處理上下...
閱讀原文

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠(yuǎn)無法模擬世界

新智元報(bào)道編輯:桃子喬楊 【新智元導(dǎo)讀】大模型是世界模型嗎?UA微軟等機(jī)構(gòu)最新研究發(fā)現(xiàn),GPT-4在復(fù)雜環(huán)境的模擬中,準(zhǔn)確率甚至不及60%。對此,LeCun激動地...
閱讀原文

ACL 2024論文蓋棺定論:大語言模型≠世界模擬器,Yann LeCun:太對了

機(jī)器之心報(bào)道 機(jī)器之心編輯部如果 GPT-4 在模擬基于常識任務(wù)的狀態(tài)變化時(shí)準(zhǔn)確率都只有約 60%,那么我們還要考慮將大語言模型作為世界模擬器來使用嗎?最近兩...
閱讀原文

Mamba-2:超越 Transformer 的新架構(gòu),訓(xùn)練效率大幅提升!

機(jī)器之心報(bào)道 來源:機(jī)器學(xué)習(xí)算法與Python學(xué)習(xí)自 2017 年被提出以來,Transformer 已經(jīng)成為 AI 大模型的主流架構(gòu),一直穩(wěn)居語言建模方面 C 位。 但隨著模型規(guī)...
閱讀原文

再戰(zhàn)Transformer!原作者帶隊(duì)的Mamba 2來了,新架構(gòu)訓(xùn)練效率大幅提升

機(jī)器之心報(bào)道 機(jī)器之心編輯部自 2017 年被提出以來,Transformer 已經(jīng)成為 AI 大模型的主流架構(gòu),一直穩(wěn)居語言建模方面 C 位。 但隨著模型規(guī)模的擴(kuò)展和需要處...
閱讀原文
1234