標(biāo)簽:基準(zhǔn)

自動化、可復(fù)現(xiàn),基于大語言模型群體智能的多維評估基準(zhǔn)Decentralized Arena來了

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

最強(qiáng)小模型又易主!Mistral發(fā)布小部長Ministral 3B、8B,邊緣計(jì)算之王!

夕小瑤科技說 原創(chuàng)作者 | 付奶茶家人們,就在今天,Mistral 7B發(fā)布一周年之際,小模型的寶座又易主了! Mistral研究團(tuán)隊(duì)發(fā)布了兩款新的邊緣計(jì)算小模型:Minis...
閱讀原文

英偉達(dá)開源最新大模型Nemotron 70B后,只有OpenAI o1一個對手了

機(jī)器之心報(bào)道 編輯:杜偉、陳陳英偉達(dá)不僅要做顯卡領(lǐng)域的領(lǐng)先者,還要在大模型領(lǐng)域逐漸建立起自己的優(yōu)勢。今天,英偉達(dá)又開源了一個性能超級強(qiáng)大的模型 —— Ll...
閱讀原文

TPAMI | 安全強(qiáng)化學(xué)習(xí)方法、理論與應(yīng)用綜述,慕工大、同濟(jì)、伯克利等深度解析

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

「世界開源新王」跌落神壇?重測跑分暴跌實(shí)錘造假,2人團(tuán)隊(duì)光速「滑跪」

新智元報(bào)道編輯:Aeneas 好困 【新智元導(dǎo)讀】「世界開源新王」Reflection 70B,才坐上王座沒幾天就被打假,跌落神壇了!甚至有人質(zhì)疑,它莫不是套殼的Sonnet ...
閱讀原文

Jim Fan再談基準(zhǔn)測試之弊!Hugging Face開源套件LightEval領(lǐng)跑LLM評估新篇章

新智元報(bào)道編輯:Mindy 【新智元導(dǎo)讀】HuggingFace推出LightEval,為AI評估帶來透明度和定制化,開啟AI模型評估的新時代。在AI的世界里,模型的評估往往被看...
閱讀原文

號稱擊敗Claude 3.5 Sonnet,媲美GPT-4o,開源多模態(tài)模型Molmo挑戰(zhàn)Scaling law

機(jī)器之心報(bào)道 編輯:佳琪、PandaMolmo,開源多模態(tài)模型正在發(fā)力!雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲備和頂尖人才的大廠做出新的 Sota 模型...
閱讀原文

AI科學(xué)家太多,誰靠譜一試便知!普林斯頓新基準(zhǔn)CORE-Bench:最強(qiáng)模型僅有21%準(zhǔn)確率

新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】普林斯頓大學(xué)新發(fā)布的CORE-Bench基準(zhǔn)測試,通過270個基于90篇跨學(xué)科科學(xué)論文的任務(wù),可評估AI智能體在計(jì)算可重復(fù)性方面的...
閱讀原文

抵擋AI的最后一個基準(zhǔn)!CAIS發(fā)布50萬美元懸賞令:匯集人類頂尖專家,專攻高難度問題

新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】隨著AI模型的水平不斷提高,現(xiàn)有的基準(zhǔn)測試也被逐一攻破。CAIS和Scale AI共同發(fā)起了屬于人類的最后一搏,懸賞50萬美元,...
閱讀原文

阿里史上最大規(guī)模開源發(fā)布,超GPT-4o 、Llama-3.1!

文章轉(zhuǎn)載自公眾號:AIGC開放社區(qū),本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。 今天凌晨,阿里巴巴官宣了史上最大規(guī)模的開源發(fā)布,推出了基礎(chǔ)模型Qwen2.5、...
閱讀原文

MMMU華人團(tuán)隊(duì)更新Pro版!多模態(tài)基準(zhǔn)升至史詩級難度:過濾純文本問題、引入純視覺問答

新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】MMMU-Pro通過三步構(gòu)建過程(篩選問題、增加候選選項(xiàng)、引入純視覺輸入設(shè)置)更嚴(yán)格地評估模型的多模態(tài)理解能力;模型在新...
閱讀原文

AI突破性進(jìn)展,OpenAI GPT o1 原理與安全最新研究報(bào)告(80頁)

“歐米伽未來研究所”關(guān)注科技未來發(fā)展趨勢,研究人類向歐米伽點(diǎn)演化過程中面臨的重大機(jī)遇與挑戰(zhàn)。將不定期推薦和發(fā)布世界范圍重要科技研究進(jìn)展。(關(guān)于歐米伽...
閱讀原文

OpenAI o1模型問世,五級AGI再突破!推理極限超博士,清北復(fù)旦華人立功

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】OpenAI的「草莓」——o1系列模型,居然迅雷不及掩耳地上線了!在復(fù)雜推理、數(shù)學(xué)和代碼問題上,它又提升到了全新高度,可...
閱讀原文

剛剛,OpenAI震撼發(fā)布o(jì)1大模型!強(qiáng)化學(xué)習(xí)突破LLM推理極限

機(jī)器之心報(bào)道 機(jī)器之心編輯部大模型領(lǐng)域的技術(shù)發(fā)展,今天起再次「從 1 開始」了。 大語言模型還能向上突破,OpenAI 再次證明了自己的實(shí)力。 北京時間 9 月 13...
閱讀原文

歐洲名將 Mistral 發(fā)布首個多模態(tài)模型,12B 開源下載,黃仁勛站臺

法國 AI 初創(chuàng) Mistral AI,又扔出一條磁力鏈炸場了。 這次,與以往不同的是,他們發(fā)布了首個多模態(tài)模型 Pixtral 12B,集語言、視覺能力于一身。 這意味著,Mi...
閱讀原文
123412