標簽:上下文

大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer

新智元報道編輯:編輯部 【新智元導讀】超越Transformer和Mamba的新架構,剛剛誕生了。斯坦福UCSD等機構研究者提出的TTT方法,直接替代了注意力機制,語言模...
閱讀原文

單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速

機器之心報道 編輯:張倩、陳萍微軟的這項研究讓開發者可以在單卡機器上以 10 倍的速度處理超過 1M 的輸入文本。大型語言模型 (LLM) 已進入長上下文處理時代...
閱讀原文

強強聯合!當RAG遇到長上下文,滑鐵盧大學發布LongRAG,效果領先GPT-4 Turbo 50%

夕小瑤科技說 原創作者 | Axe_越過猶不及——《論語·先進》 大學考試時,有些老師允許帶備cheet sheet(忘紙條),上面記著關鍵公式和定義,幫助我們快速作答提高...
閱讀原文

谷歌重磅:告別RAG,長上下文的大語言模型無需檢索增強

夕小瑤科技說 原創作者 | Richard當今人工智能領域正在經歷一場靜默的革命。隨著大語言模型(LLM)的快速發展,它們不僅能夠處理更長的上下文,還展現出驚人的...
閱讀原文

ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

吳恩達團隊新作:多模態多樣本上下文學習,無需微調快速適應新任務

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

37項SOTA!全模態預訓練范式MiCo:理解任何模態并學習通用表示|港中文&中科院

MiCo團隊 投稿量子位 | 公眾號 QbitAIGPT-4o掀起一股全模態(Omni-modal)熱潮,去年的熱詞多模態仿佛已經不夠看了。 要構建全模態智能,意味著能夠理解任何...
閱讀原文

Agent技術洞察01:增強大語言模型 Agents 的工作記憶能力

直播預告 | 6月14日上午10點,「智猩猩AI新青年講座」第239講正式開講,莫納什大學在讀博士馬鑫將直播講解《DiT架構在視頻生成模型中的應用與擴展》,歡迎掃...
閱讀原文

開源超閉源!通義千問Qwen2發布即爆火,網友:GPT-4o危

魚羊 發自 凹非寺量子位 | 公眾號 QbitAI開源大模型全球格局,一夜再變。 這不,全新開源大模型亮相,性能全面超越開源標桿Llama 3。王座易主了。不是“媲美”...
閱讀原文

阿里云發布最強開源大模型Qwen2,干翻Llama 3,比閉源模型還強

最強開源大模型一夜易主!阿里云Qwen2問鼎十幾項全球權威榜單。 作者|三北 編輯|漠影 開源界最強大語言模型,Qwen2,來了! 智東西6月7日報道,今日,阿里云...
閱讀原文

阿里開源Qwen2系列模型,72B有望成為開源第一!

01寫在前面書接上回,開源時代,沸騰期待。 期待已久的Qwen2,他如約而至,他來了,他帶著5個尺寸的大模型迎面走來了。 Blog:https://qwenlm.github.io/blog/...
閱讀原文

阿里Qwen2正式開源,性能全方位包圍Llama-3

機器之心報道 編輯:大盤雞Qwen 系列會是眾多大學實驗室新的默認基礎模型嗎? 斯坦福團隊套殼清華大模型的事件不斷發酵后,中國模型在世界上開始得到了更多關...
閱讀原文

1毛錢1百萬token,寫2遍紅樓夢!國產大模型下一步還想卷什么?

新智元報道編輯:編輯部 【新智元導讀】大模型價格戰,這匹國產黑馬又破紀錄了!最低的GLM-4 Flash版本,百萬token價格已經低至0.1元,可以說是擊穿地心。Maa...
閱讀原文

即插即用,快速適配!港大FlashST:簡單通用的智慧交通時空預測模型 | ICML 2024

新智元報道編輯:LRT 【新智元導讀】華南理工大學和香港大學的研究人員在ICML 2024上提出了一個簡單而通用的時空提示調整框架FlashST,通過輕量級的時空提示...
閱讀原文

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

西風 發自 凹非寺量子位 | 公眾號 QbitAI無情戳穿“長上下文”大模型的虛標現象—— 英偉達新研究發現,包括GPT-4在內的10個大模型,生成達到128k甚至1M上下文長...
閱讀原文
12345615