標簽:下文

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業(yè)~AI生成影視解說,半個月漲粉變現(xiàn)3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發(fā)現(xiàn)...

Jamba 1.5發(fā)布,最長上下文,非Transformer架構首次成功領先

昨天,號稱當前最強、最高效的長上下文模型——Jamba 1.5 系列發(fā)布。 Jamba 是第一個基于 Mamba 架構的生產級模型。Mamba 是由卡內基梅隆大學和普林斯頓大學的...
閱讀原文

支持1024幀、準確率近100%,英偉達「LongVILA」開始發(fā)力長視頻

機器之心報道 編輯:杜偉、陳陳現(xiàn)在,長上下文視覺語言模型(VLM)有了新的全棧解決方案 ——LongVILA,它集系統(tǒng)、模型訓練與數(shù)據集開發(fā)于一體。現(xiàn)階段,將模型...
閱讀原文

NVIDIA把Llama-3的上下文長度擴展16倍,長上下文理解能力超越GPT-4

夕小瑤科技說 原創(chuàng)作者 | Richard在 Llama-3.1 模型發(fā)布之前,開源模型與閉源模型的性能之間一直存在較大的差距,尤其是在長上下文理解能力上。 大模型的上下...
閱讀原文

超越 Transformer 與 Mamba,Meta 聯(lián)合斯坦福等高校推出最強架構 TTT

作者 | 趙明華 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人員提出了一種全新架構,用機器學習模型取代 RNN 的隱藏狀態(tài)。 圖 1 所有序列建模層都可以表示...
閱讀原文

單卡A100實現(xiàn)百萬token推理,速度快10倍,這是微軟官方的大模型推理加速

機器之心報道 編輯:張倩、陳萍微軟的這項研究讓開發(fā)者可以在單卡機器上以 10 倍的速度處理超過 1M 的輸入文本。大型語言模型 (LLM) 已進入長上下文處理時代...
閱讀原文

強強聯(lián)合!當RAG遇到長上下文,滑鐵盧大學發(fā)布LongRAG,效果領先GPT-4 Turbo 50%

夕小瑤科技說 原創(chuàng)作者 | Axe_越過猶不及——《論語·先進》 大學考試時,有些老師允許帶備cheet sheet(忘紙條),上面記著關鍵公式和定義,幫助我們快速作答提高...
閱讀原文

谷歌重磅:告別RAG,長上下文的大語言模型無需檢索增強

夕小瑤科技說 原創(chuàng)作者 | Richard當今人工智能領域正在經歷一場靜默的革命。隨著大語言模型(LLM)的快速發(fā)展,它們不僅能夠處理更長的上下文,還展現(xiàn)出驚人的...
閱讀原文

速度秒殺GPT-4o!Mistral開源首個22B代碼模型破記錄,支持80+編程語言

新智元報道編輯:喬楊 好困 【新智元導讀】就在剛剛,法國AI初創(chuàng)公司Mistral發(fā)布了自家首款代碼生成模型Codestral。不僅支持32K長上下文窗口以及80多種編程語...
閱讀原文

馬斯克大模型Grok1.5來了:推理能力大升級,支持128k上下文

機器之心報道 編輯:澤南馬斯克搞大模型,速度也奇快。 Grok 1 開源才剛有 10 天,Grok 1.5 就來了。本周五早上,馬斯克旗下的人工智能公司 xAI 正式推出了 G...
閱讀原文

今日Arxiv最熱NLP大模型論文:Llama-2上下文擴大48倍的方法來了,港大發(fā)布,無需訓練

夕小瑤科技說 原創(chuàng)作者 | 芒果 引言:大語言模型的長上下文理解能力在當今的人工智能領域,大語言模型(Large Language Models,簡稱LLMs)的長上下文理解能...
閱讀原文

谷歌10M上下文窗口正在RAG?被Sora奪走風頭的Gemini被低估了?

機器之心報道 機器之心編輯部RAG 還有存在的必要嗎?要說最近最郁悶的公司,谷歌肯定算得上一個:自家的 Gemini 1.5 剛剛發(fā)布,就被 OpenAI 的 Sora 搶盡了風...
閱讀原文

符堯大佬一作發(fā)文,僅改訓練數(shù)據,就讓LLaMa-2上下文長度擴展20倍!

夕小瑤科技說 原創(chuàng)作者 | Tscom、Python引言:探索語言模型的長上下文能力近日,谷歌推出了Gemini Pro 1.5,將上下文窗口長度擴展到100萬個tokens,目前領先...
閱讀原文

面向超長上下文,大語言模型如何優(yōu)化架構,這篇綜述一網打盡了

機器之心報道 編輯:rome rome作者重點關注了基于 Transformer 的 LLM 模型體系結構在從預訓練到推理的所有階段中優(yōu)化長上下文能力的進展。 ChatGPT 的誕生,...
閱讀原文

把LLM視作操作系統(tǒng),它就擁有了無限「虛擬」上下文,伯克利新作已攬1.7k star

機器之心報道編輯:杜偉、小舟當前,讓大語言模型擁有更強的上下文處理能力是業(yè)界非常看重的熱點主題之一。本文中,加州大學伯克利分校的研究者將 LLM 與操作...
閱讀原文

「Meta版ChatGPT」背后的技術:想讓基礎LLM更好地處理長上下文,只需持續(xù)預訓練

機器之心報道編輯:Panda W在處理長上下文方面,LLaMA 一直力有不足,而通過持續(xù)預訓練和其它一些方法改進,Meta 的這項研究成功讓 LLM 具備了有效理解上下文...
閱讀原文
12