標簽：上下文

面向超長上下文，大語言模型如何優化架構，這篇綜述一網打盡了

機器之心報道編輯：rome rome作者重點關注了基于 Transformer 的 LLM 模型體系結構在從預訓練到推理的所有階段中優化長上下文能力的進展。 ChatGPT 的誕生，...

閱讀原文

AIGC動態

2年前 (2024)

Mamba可以替代Transformer，但它們也能組合起來使用

機器之心報道編輯：Panda W1+1＞2。Transformer 很厲害，但并不完美，尤其是在處理長序列方面。而狀態空間模型（SSM）則在長序列上的表現相當不俗。早在去年...

閱讀原文

AIGC動態

2年前 (2024)

人大高瓴提出“注意力波”方法，70 億參數 Llama 比肩 GPT-4

夕小瑤科技說原創作者 | 智商掉了一地、python最近，隨著大型語言模型（LLM）在人機交互、多模態任務和語言應用等領域的廣泛應用，研究者們紛紛致力于提升這...

閱讀原文

AIGC動態

2年前 (2023)

夸張！EMNLP投稿近5000篇，獎項出爐：北大、騰訊摘最佳長論文

機器之心報道機器之心編輯部本屆 EMNLP 大會在投稿人數上創了新高，整體接收率也較上屆略有提升。EMNLP 是自然語言處理領域的頂級會議之一，EMNLP 2023 于 12...

閱讀原文

AIGC動態

2年前 (2023)

中國團隊再獲EMNLP最佳長論文！北大微信AI聯合揭秘大模型上下文學習機制

白交發自凹非寺量子位 | 公眾號 QbitAIEMNLP頂會落下帷幕，各種獎項悉數頒出。最佳長論文獎被北大微信AI團隊收入囊中，由北大孫栩老師和微信周杰、孟凡東合...

閱讀原文

AIGC動態

2年前 (2023)

一句話解鎖100k+上下文大模型真實力，27分漲到98，GPT-4、Claude2.1適用

夢晨發自凹非寺量子位 | 公眾號 QbitAI各家大模型紛紛卷起上下文窗口，Llama-1時標配還是2k，現在不超過100k的已經不好意思出門了。然鵝一項極限測試卻發現...

閱讀原文

AIGC動態

2年前 (2023)

AI變鑒片大師，星際穿越都能看懂！賈佳亞團隊新作，多模態大模型挑戰超長3小時視頻

豐色明敏發自凹非寺量子位 | 公眾號 QbitAI啥？AI都能自己看電影大片了？賈佳亞團隊最新研究成果，讓大模型直接學會了處理超長視頻。丟給它一部科幻大片《...

閱讀原文

AIGC動態

2年前 (2023)

RAG+GPT-4 Turbo讓模型性能飆升！更長上下文不是終局，「大海撈針」實驗成本僅4%

新智元報道編輯：桃子【新智元導讀】RAG或許就是大模型能力飆升下一個未來。RAG+GPT-4，4%的成本，便可擁有卓越的性能。這是最新的「大海撈針」實驗得出的結...

閱讀原文

AIGC動態

2年前 (2023)

任意文本、視覺、音頻混合生成，多模態有了強大的基礎引擎CoDi-2

機器之心報道編輯：杜偉、大盤雞研究者表示，CoDi-2 標志著在開發全面的多模態基礎模型領域取得了重大突破。今年 5 月，北卡羅來納大學教堂山分校、微軟提出...

閱讀原文

AIGC動態

2年前 (2023)

一個提示，讓Llama 2準確率飆至80.3%？Meta提出全新注意力機制S2A，大幅降低模型幻覺

新智元報道編輯：alan【新智元導讀】大語言模型「拍馬屁」的問題到底要怎么解決？最近，LeCun轉發了Meta發布的一篇論文，研究人員提出了新的方法，有效提升了...

閱讀原文

AIGC動態

2年前 (2023)

小模型如何進行上下文學習？字節跳動 & 華東師大聯合提出自進化文本識別器

機器之心專欄機器之心編輯部我們都知道，大語言模型（LLM）能夠以一種無需模型微調的方式從少量示例中學習，這種方式被稱為「上下文學習」（In-context Learn...

閱讀原文

AIGC動態

2年前 (2023)

最新Claude 200K嚴重「虛標」？大神壕擲1016美元實測，90K后性能急劇下降

新智元報道編輯：潤好困【新智元導讀】月初剛測了GPT-4 Turbo上下文真實實力的大神Greg Kamradt又盯上了Anthropic剛更新的Claude 2.1。他自己花了1016刀測完...

閱讀原文

AIGC動態

2年前 (2023)

Meta對Transformer架構下手了：新注意力機制更懂推理

機器之心報道編輯：杜偉、陳萍作者表示，這種全新注意力機制（Sytem 2 Attention）或許你也需要呢。大型語言模型（LLM）很強已經是一個不爭的事實，但它們有...

閱讀原文

AIGC動態

2年前 (2023)

新王加冕，GPT-4V 屠榜視覺問答

夕小瑤科技說原創作者 | 智商掉了一地、Python當前，多模態大型模型（Multi-modal Large Language Model, MLLM）在視覺問答（VQA）領域展現了卓越的能力。然...

閱讀原文

AIGC動態

2年前 (2023)

ChatGPT最強競對更新！上下文長度翻倍，API降價近30%

克雷西發自凹非寺量子位 | 公眾號 QbitAIOpenAI開發者大會后不久，它的最強競對Claude也宣布推出了重磅更新。更新后的Claude 2.1，上下文長度直接翻番到20...

閱讀原文

AIGC動態

2年前 (2023)

1…9 101112 13…15