標(biāo)簽:上下文

LLama 405B 技術(shù)報(bào)告解讀

9月6-7日,2024全球AI芯片峰會(huì)將在北京召開(kāi)。目前,AMD人工智能事業(yè)部高級(jí)總監(jiān)王宏強(qiáng),清華大學(xué)交叉信息研究院助理教授、北極雄芯創(chuàng)始人馬愷聲,珠海芯動(dòng)力創(chuàng)...
閱讀原文

擊敗GPT-4o的開(kāi)源模型如何煉成?關(guān)于Llama 3.1 405B,Meta都寫(xiě)在這篇論文里了

機(jī)器之心報(bào)道 機(jī)器之心編輯部經(jīng)歷了提前兩天的「意外泄露」之后,Llama 3.1 終于在昨夜由官方正式發(fā)布了。 Llama 3.1 將上下文長(zhǎng)度擴(kuò)展到了 128K,擁有 8B、7...
閱讀原文

Meta 發(fā)布其最強(qiáng)大的 AI 模型 Llama 3.1,具有 4050億參數(shù)

點(diǎn)擊上方藍(lán)字關(guān)注我們“Meta 發(fā)布了史上最大的開(kāi)源 AI 模型 Llama 3.1 405B,擁有 4050 億參數(shù),支持多語(yǔ)言文本處理,推動(dòng)生成性 AI 發(fā)展。Meta 剛剛發(fā)布了史...
閱讀原文

英偉達(dá)Mistral AI聯(lián)袂出擊!120億小模型王者強(qiáng)勢(shì)登場(chǎng),碾壓Llama 3單張4090可跑

新智元報(bào)道編輯:耳朵 桃子 【新智元導(dǎo)讀】GPT-4o mini頭把交椅還未坐熱,Mistral AI聯(lián)手英偉達(dá)發(fā)布12B參數(shù)小模型Mistral Nemo,性能趕超Gemma 2 9B和Llama 3...
閱讀原文

我們從過(guò)去一年的大模型構(gòu)建過(guò)程中學(xué)到的經(jīng)驗(yàn)

作者 | Eugene Yan、Bryan Bischof、Charles Frye、Hamel Husain、Jason Liu 和 Shreya Shankar 翻譯 | 王強(qiáng) 策劃 | 褚杏娟 當(dāng)下正是使用大型語(yǔ)言模型(LLM...
閱讀原文

小模型卷起來(lái)了:Mistral聯(lián)合英偉達(dá)開(kāi)源12B小模型,128k上下文

機(jī)器之心報(bào)道 機(jī)器之心編輯部小模型,正在成為 AI 巨頭的新戰(zhàn)場(chǎng)。今天凌晨,OpenAI 突然發(fā)布了 GPT-4o 的迷你版本 ——GPT-4o mini。這個(gè)模型替代了原來(lái)的 GPT-...
閱讀原文

開(kāi)源僅 1 天就斬獲近萬(wàn)星!超越 RAG、讓大模型擁有超強(qiáng)記憶力的 Mem0 火了!

整理 | Tina 最近,拿到 OpenAI 370 萬(wàn)美元投資的一款 AI 聊天應(yīng)用在 App Store 上線了。國(guó)內(nèi)外 AI 聊天工具層出不窮、屢見(jiàn)不鮮,為什么這款應(yīng)用卻能受到 Op...
閱讀原文

視頻上下文學(xué)習(xí)!大模型學(xué)會(huì)“照貓畫(huà)虎”生成,結(jié)合模擬器還能精準(zhǔn)控制真實(shí)環(huán)境交互,來(lái)自MSRA

Vid-ICL團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI視頻生成也能參考“上下文”?! MSRA提出視頻上下文學(xué)習(xí)(Video In-Context Learning, Vid-ICL),讓大模型學(xué)會(huì)“照貓...
閱讀原文

原作親自下場(chǎng)!Mistral首款開(kāi)源7B Mamba模型「埃及艷后」效果驚艷

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】最近,7B小模型又成為了AI巨頭們競(jìng)相追趕的潮流。繼谷歌的Gemma2 7B后,Mistral今天又發(fā)布了兩個(gè)7B模型,分別是針對(duì)ST...
閱讀原文

斯坦福提出大模型最強(qiáng)架構(gòu)TTT,超越Transformers

夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年在Transformer被提出以前,以LSTMs為代表的RNNs網(wǎng)絡(luò)結(jié)構(gòu)由于計(jì)算簡(jiǎn)單、擅長(zhǎng)處理序列數(shù)據(jù)常被用作NLP領(lǐng)域的基礎(chǔ)架構(gòu)。但受其結(jié)...
閱讀原文

超越 Transformer 與 Mamba,Meta 聯(lián)合斯坦福等高校推出最強(qiáng)架構(gòu) TTT

作者 | 趙明華 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人員提出了一種全新架構(gòu),用機(jī)器學(xué)習(xí)模型取代 RNN 的隱藏狀態(tài)。 圖 1 所有序列建模層都可以表示...
閱讀原文

新國(guó)立祭出視頻生成“無(wú)限寶石“:2300幀僅需5分鐘,提速100倍

夕小瑤科技說(shuō) 原創(chuàng)作者 | Axe_越天下武功唯快不破—— 火云邪神 前一段時(shí)間,想必大家都有被各種文生視頻給刷屏,但當(dāng)看完之后,不知道大家是否都有一種意猶未...
閱讀原文

深度解析RAG大模型知識(shí)沖突,清華西湖大學(xué)港中文聯(lián)合發(fā)布

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

新架構(gòu)RNN反超Transformer:每個(gè)隱藏狀態(tài)都是一個(gè)模型,一作:從根本上改變語(yǔ)言模型

夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI新架構(gòu),再次向Transformer發(fā)起挑戰(zhàn)! 核心思想:將RNN中的隱藏狀態(tài)換成可學(xué)習(xí)的模型。 甚至在測(cè)試時(shí)都可以學(xué)習(xí),所...
閱讀原文

大模型最強(qiáng)架構(gòu)TTT問(wèn)世!斯坦福UCSD等5年磨一劍, 一夜Transformer

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】超越Transformer和Mamba的新架構(gòu),剛剛誕生了。斯坦福UCSD等機(jī)構(gòu)研究者提出的TTT方法,直接替代了注意力機(jī)制,語(yǔ)言模...
閱讀原文
1234515