標簽:機制
400萬token上下文、推理再加速46%!最新開源方案升級MIT成果,推理成本再降低
明敏 發自 凹非寺量子位 | 公眾號 QbitAI22倍加速還不夠,再來提升46%,而且方法直接開源! 這就是開源社區改進MIT爆火項目StreamingLLM的最新成果。 Streami...
誰能撼動Transformer統治地位?Mamba作者談LLM未來架構
機器之心編譯 機器之心編輯部自 2017 年被提出以來,Transformer 已成為 AI 大模型的主流架構,未來這種情況是一直持續,還是會有新的研究出現,我們不妨先聽...
歷時8年終發Science,他證明老鼠有類人的想象力
來源:量子位關于大模型注意力機制,Meta又有了一項新研究。通過調整模型注意力,屏蔽無關信息的干擾,新的機制讓大模型準確率進一步提升。而且這種機制不需...
更像人腦的新型注意力機制,Meta讓大模型自動屏蔽任務無關信息,準確率提高27%
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI關于大模型注意力機制,Meta又有了一項新研究。通過調整模型注意力,屏蔽無關信息的干擾,新的機制讓大模型準確率...
Meta對Transformer架構下手了:新注意力機制更懂推理
機器之心報道編輯:杜偉、陳萍作者表示,這種全新注意力機制(Sytem 2 Attention)或許你也需要呢。大型語言模型(LLM)很強已經是一個不爭的事實,但它們有...
大模型集體失控!南洋理工新型攻擊,主流AI無一幸免
西風 蕭簫 發自 凹非寺量子位 | 公眾號 QbitAI業界最領先的大模型們,竟然集體“越獄”了!不止是GPT-4,就連平時不咋出錯的Bard、Bing Chat也全線失控,有的要...
上下文學習=對比學習?人大揭示ICL推理背后的隱式更新機理:梯度更新了嗎?「如更」
新智元報道編輯:LRS【新智元導讀】人民大學最新研究,首次從「對比學習」的角度來理解上下文學習,或可提供自注意力機制的改進思路。近些年來,基于Transfor...
“最強7B模型”論文發布,揭秘如何超越13B版Llama 2
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI來自“歐洲OpenAI”的“最強7B開源模型”Mistral最近可謂是圈粉無數。它各方面的測試指標全面超越了13B的Llama2,甚至...
國家自然科學基金“十四五”發展規劃
來源:國家基金委、科獎在線、材料科學與工程《國家自然科學基金“十四五”發展規劃》已公布規劃全文,共計21個章節,完整的闡明了國家自然科學基金委十四五期...
12