標簽:上下文
面向超長上下文,大語言模型如何優化架構,這篇綜述一網打盡了
機器之心報道 編輯:rome rome作者重點關注了基于 Transformer 的 LLM 模型體系結構在從預訓練到推理的所有階段中優化長上下文能力的進展。 ChatGPT 的誕生,...
Mamba可以替代Transformer,但它們也能組合起來使用
機器之心報道 編輯:Panda W1+1>2。Transformer 很厲害,但并不完美,尤其是在處理長序列方面。而狀態空間模型(SSM)則在長序列上的表現相當不俗。早在去年...
人大高瓴提出“注意力波”方法,70 億參數 Llama 比肩 GPT-4
夕小瑤科技說 原創作者 | 智商掉了一地、python最近,隨著大型語言模型(LLM)在人機交互、多模態任務和語言應用等領域的廣泛應用,研究者們紛紛致力于提升這...
夸張!EMNLP投稿近5000篇,獎項出爐:北大、騰訊摘最佳長論文
機器之心報道機器之心編輯部本屆 EMNLP 大會在投稿人數上創了新高,整體接收率也較上屆略有提升。EMNLP 是自然語言處理領域的頂級會議之一,EMNLP 2023 于 12...
中國團隊再獲EMNLP最佳長論文!北大微信AI聯合揭秘大模型上下文學習機制
白交 發自 凹非寺量子位 | 公眾號 QbitAIEMNLP頂會落下帷幕,各種獎項悉數頒出。最佳長論文獎被北大微信AI團隊收入囊中,由北大孫栩老師和微信周杰、孟凡東合...
一句話解鎖100k+上下文大模型真實力,27分漲到98,GPT-4、Claude2.1適用
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI各家大模型紛紛卷起上下文窗口,Llama-1時標配還是2k,現在不超過100k的已經不好意思出門了。然鵝一項極限測試卻發現...
AI變鑒片大師,星際穿越都能看懂!賈佳亞團隊新作,多模態大模型挑戰超長3小時視頻
豐色 明敏 發自 凹非寺量子位 | 公眾號 QbitAI啥?AI都能自己看電影大片了?賈佳亞團隊最新研究成果,讓大模型直接學會了處理超長視頻。丟給它一部科幻大片《...
RAG+GPT-4 Turbo讓模型性能飆升!更長上下文不是終局,「大海撈針」實驗成本僅4%
新智元報道編輯:桃子【新智元導讀】RAG或許就是大模型能力飆升下一個未來。RAG+GPT-4,4%的成本,便可擁有卓越的性能。這是最新的「大海撈針」實驗得出的結...
任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2
機器之心報道編輯:杜偉、大盤雞研究者表示,CoDi-2 標志著在開發全面的多模態基礎模型領域取得了重大突破。今年 5 月,北卡羅來納大學教堂山分校、微軟提出...
一個提示,讓Llama 2準確率飆至80.3%?Meta提出全新注意力機制S2A,大幅降低模型幻覺
新智元報道編輯:alan【新智元導讀】大語言模型「拍馬屁」的問題到底要怎么解決?最近,LeCun轉發了Meta發布的一篇論文,研究人員提出了新的方法,有效提升了...
小模型如何進行上下文學習?字節跳動 & 華東師大聯合提出自進化文本識別器
機器之心專欄機器之心編輯部我們都知道,大語言模型(LLM)能夠以一種無需模型微調的方式從少量示例中學習,這種方式被稱為「上下文學習」(In-context Learn...
最新Claude 200K嚴重「虛標」?大神壕擲1016美元實測,90K后性能急劇下降
新智元報道編輯:潤 好困【新智元導讀】月初剛測了GPT-4 Turbo上下文真實實力的大神Greg Kamradt又盯上了Anthropic剛更新的Claude 2.1。他自己花了1016刀測完...
Meta對Transformer架構下手了:新注意力機制更懂推理
機器之心報道編輯:杜偉、陳萍作者表示,這種全新注意力機制(Sytem 2 Attention)或許你也需要呢。大型語言模型(LLM)很強已經是一個不爭的事實,但它們有...
新王加冕,GPT-4V 屠榜視覺問答
夕小瑤科技說 原創作者 | 智商掉了一地、Python當前,多模態大型模型(Multi-modal Large Language Model, MLLM)在視覺問答(VQA)領域展現了卓越的能力。然...
ChatGPT最強競對更新!上下文長度翻倍,API降價近30%
克雷西 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI開發者大會后不久,它的最強競對Claude也宣布推出了重磅更新。更新后的Claude 2.1,上下文長度直接翻番到20...