標簽:基準

60億AI獨角獸Mistral祭出磁力鏈,首個多模態Pixtral 12B登場!但被大佬曝出評測造假

新智元報道編輯:桃子 好困 【新智元導讀】一條磁力鏈,又在AI圈掀起狂瀾。成立一年法國AI獨角獸Mistral,官宣首個多模態模型Pixtral 12B,不僅能看懂手繪稿...
閱讀原文

ACL杰出論文獎|GPT-4V暴露致命缺陷?JHU等發布首個多模態ToM 測試集,全面提升大模型心智能力

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

這就翻車了?Reflection 70B遭質疑基模為Llama 3,作者:重新訓練

機器之心報道 編輯:杜偉最近,開源大模型社區再次「熱鬧」了起來,主角是 AI 寫作初創公司 HyperWrite 開發的新模型 Reflection 70B。 它的底層模型建立在 M...
閱讀原文

開源大模型新王干翻GPT-4o,新技術可糾正自己幻覺,數學99.2分刷爆測試集

西風 發自 凹非寺量子位 | 公眾號 QbitAI開源大模型王座突然易主,居然來自一家小創業團隊,瞬間引爆業界。 新模型名為Reflection 70B,使用一種全新訓練技術...
閱讀原文

AMD的GPU跑AI模型終于Yes了?PK英偉達H100不帶怕的

機器之心報道 編輯:Panda都很貴。AMD vs 英偉達絕對算是一個長盛不衰的話題 —— 從玩游戲用哪家強到如今訓練 AI 哪個更高效?原因也很簡單:它們的 GPU 產品...
閱讀原文

Mamba作者新作:將Llama3蒸餾成混合線性 RNN

機器之心報道 機器之心編輯部Transformer 在深度學習領域取得巨大成功的關鍵是注意力機制。注意力機制讓基于 Transformer 的模型關注與輸入序列相關的部分,...
閱讀原文

英偉達Blackwell稱霸MLPerf!推理性能暴漲30倍,新一代「AI怪獸」誕生

新智元報道編輯:喬楊 好困 【新智元導讀】MLPerf Inference發布了最新測試結果,英偉達最新的Blackwell架構芯片上場與谷歌、AMD同場競技,展現出明顯的性能...
閱讀原文

微軟「小而美」系列三!視覺小鋼炮PK GPT-4o,MoE新秀力壓Llama 3.1

新智元報道編輯:耳朵 好困 【新智元導讀】微軟Phi 3.5系列上新了!mini模型小而更美,MoE模型首次亮相,vision模型專注多模態。就在今天,微軟「小語言模型...
閱讀原文

謝謝微軟,又又又Open了!一口氣發布3款Phi-3.5新模型,領先Llama3.1和谷歌同級模型

夕小瑤科技說 原創作者 | 付奶茶家人們!微軟又用愛發電了!一覺醒來,微軟發布了最新的小模型三兄弟: Phi-3.5-MoE-instruct Phi-3.5-mini-instruct Phi-3.5...
閱讀原文

LLM數學性能暴漲168%,微軟14人團隊力作!合成數據2.0秘訣曝光,智能體生成教學

新智元報道編輯:桃子 【新智元導讀】合成數據2.0秘訣曝光了!來自微軟的研究人員們提出了智能體框架AgentInstruct,能夠自動創建大量、多樣化的合成數據。經...
閱讀原文

同時操控手機和電腦,100項任務,跨系統智能體評測基準有了

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

非Transformer架構站起來了!首個純無注意力大模型,超越開源巨頭Llama 3.1

機器之心報道 編輯:杜偉、陳陳Mamba 架構的大模型又一次向 Transformer 發起了挑戰。Mamba 架構模型這次終于要「站」起來了?自 2023 年 12 月首次推出以來...
閱讀原文

ACL 2024 Oral|我們離真正的多模態思維鏈推理還有多遠?

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

無比喻,不論文!用「畫家流水線」的方式理解Transformer中間層

新智元報道編輯:喬楊 庸庸 【新智元導讀】Transformer架構層層堆疊,包含十幾億甚至幾十億個參數,這些層到底是如何工作的?當一個新奇的比喻——「畫家流水線...
閱讀原文

Github 1.3K星的程序開發智能體!UIUC/CMU/耶魯等聯合發布OpenDevin技術報告

夕小瑤科技說 原創作者 | Axe_越如果說Agent(智能體)為LLM(大模型)找到了一個落地的方向,那么可以想象,一種能夠自動完成軟件開發、數據分析、網頁瀏覽...
閱讀原文
1234512