標簽:上下文
LLama 405B 技術報告解讀
9月6-7日,2024全球AI芯片峰會將在北京召開。目前,AMD人工智能事業部高級總監王宏強,清華大學交叉信息研究院助理教授、北極雄芯創始人馬愷聲,珠海芯動力創...
擊敗GPT-4o的開源模型如何煉成?關于Llama 3.1 405B,Meta都寫在這篇論文里了
機器之心報道 機器之心編輯部經歷了提前兩天的「意外泄露」之后,Llama 3.1 終于在昨夜由官方正式發布了。 Llama 3.1 將上下文長度擴展到了 128K,擁有 8B、7...
Meta 發布其最強大的 AI 模型 Llama 3.1,具有 4050億參數
點擊上方藍字關注我們“Meta 發布了史上最大的開源 AI 模型 Llama 3.1 405B,擁有 4050 億參數,支持多語言文本處理,推動生成性 AI 發展。Meta 剛剛發布了史...
英偉達Mistral AI聯袂出擊!120億小模型王者強勢登場,碾壓Llama 3單張4090可跑
新智元報道編輯:耳朵 桃子 【新智元導讀】GPT-4o mini頭把交椅還未坐熱,Mistral AI聯手英偉達發布12B參數小模型Mistral Nemo,性能趕超Gemma 2 9B和Llama 3...
我們從過去一年的大模型構建過程中學到的經驗
作者 | Eugene Yan、Bryan Bischof、Charles Frye、Hamel Husain、Jason Liu 和 Shreya Shankar 翻譯 | 王強 策劃 | 褚杏娟 當下正是使用大型語言模型(LLM...
小模型卷起來了:Mistral聯合英偉達開源12B小模型,128k上下文
機器之心報道 機器之心編輯部小模型,正在成為 AI 巨頭的新戰場。今天凌晨,OpenAI 突然發布了 GPT-4o 的迷你版本 ——GPT-4o mini。這個模型替代了原來的 GPT-...
開源僅 1 天就斬獲近萬星!超越 RAG、讓大模型擁有超強記憶力的 Mem0 火了!
整理 | Tina 最近,拿到 OpenAI 370 萬美元投資的一款 AI 聊天應用在 App Store 上線了。國內外 AI 聊天工具層出不窮、屢見不鮮,為什么這款應用卻能受到 Op...
視頻上下文學習!大模型學會“照貓畫虎”生成,結合模擬器還能精準控制真實環境交互,來自MSRA
Vid-ICL團隊 投稿量子位 | 公眾號 QbitAI視頻生成也能參考“上下文”?! MSRA提出視頻上下文學習(Video In-Context Learning, Vid-ICL),讓大模型學會“照貓...
原作親自下場!Mistral首款開源7B Mamba模型「埃及艷后」效果驚艷
新智元報道編輯:編輯部 【新智元導讀】最近,7B小模型又成為了AI巨頭們競相追趕的潮流。繼谷歌的Gemma2 7B后,Mistral今天又發布了兩個7B模型,分別是針對ST...
斯坦福提出大模型最強架構TTT,超越Transformers
夕小瑤科技說 原創作者 | 謝年年在Transformer被提出以前,以LSTMs為代表的RNNs網絡結構由于計算簡單、擅長處理序列數據常被用作NLP領域的基礎架構。但受其結...
超越 Transformer 與 Mamba,Meta 聯合斯坦福等高校推出最強架構 TTT
作者 | 趙明華 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人員提出了一種全新架構,用機器學習模型取代 RNN 的隱藏狀態。 圖 1 所有序列建模層都可以表示...
新國立祭出視頻生成“無限寶石“:2300幀僅需5分鐘,提速100倍
夕小瑤科技說 原創作者 | Axe_越天下武功唯快不破—— 火云邪神 前一段時間,想必大家都有被各種文生視頻給刷屏,但當看完之后,不知道大家是否都有一種意猶未...
深度解析RAG大模型知識沖突,清華西湖大學港中文聯合發布
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
新架構RNN反超Transformer:每個隱藏狀態都是一個模型,一作:從根本上改變語言模型
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI新架構,再次向Transformer發起挑戰! 核心思想:將RNN中的隱藏狀態換成可學習的模型。 甚至在測試時都可以學習,所...
大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer
新智元報道編輯:編輯部 【新智元導讀】超越Transformer和Mamba的新架構,剛剛誕生了。斯坦福UCSD等機構研究者提出的TTT方法,直接替代了注意力機制,語言模...
粵公網安備 44011502001135號