標(biāo)簽:基準(zhǔn)
WPS接入DeepSeek,秒變辦公神器!
WPS 大家經(jīng)常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓W(xué)PS秒變辦公神器。 DeepSeek API申請地址:http:/...
AI賺錢副業(yè)~AI生成影視解說,半個月漲粉變現(xiàn)3.5W+!
這兩年大家都在感嘆生活不易,然而我想說的是,機(jī)會還是有的,但問題不在于有沒有,而在于你是否能夠認(rèn)準(zhǔn)機(jī)會,然后抓住它。 接觸過很多咨詢項目的人,發(fā)現(xiàn)...
突破編程邊界:豆包大模型團(tuán)隊發(fā)布全新開源代碼基準(zhǔn),涵蓋11類真實(shí)場景!
字節(jié)開源最全面代碼大模型基準(zhǔn)FullStack Bench,可在線體驗(yàn)。
含284個數(shù)據(jù)集,覆蓋18項臨床任務(wù),上海AI Lab等發(fā)布多模態(tài)醫(yī)療基準(zhǔn)GMAI-MMBench
作者:李姝 編輯:李寶珠 上海人工智能實(shí)驗(yàn)室聯(lián)合華盛頓大學(xué)/莫納什大學(xué)/華東師范大學(xué)等多所科研單位提出了 GMAI-MMBench 基準(zhǔn),包含來自全球的 284 個下游任...
?首個自主機(jī)器學(xué)習(xí)AI工程師,剛問世就秒了OpenAI o1,Kaggle大師拿到飽
機(jī)器之心報道 編輯:澤南,亞鸝???多智能體系統(tǒng),可自動化整個 ML 工作流程,節(jié)省數(shù)千小時工時。 Open AI 的推理模型 o1,這么快就被比下去了? 本周五,AI ...
LLM 推理量化評估:FP8、INT8 與 INT4 的全面對比
大會預(yù)告12月5日-6日,2024中國生成式AI大會(上海站)將舉辦。上海科大助理教授、博導(dǎo)顧家遠(yuǎn),騰訊優(yōu)圖實(shí)驗(yàn)室天衍研究中心負(fù)責(zé)人吳賢,銀河通用機(jī)器人合伙人...
最強(qiáng)開源CodeLLM模型深夜來襲!320億參數(shù),Qwen2.5-Coder新模型超越GPT-4o
小明 發(fā)自 凹非寺量子位 | 公眾號 QbitAI一夜之間,AI編程模型的開源王座易主了! Qwen2.5-Coder-32B正式發(fā)布,霸氣拿下多個主流基準(zhǔn)測試SOTA,徹底登上全球...
o1/Claude集體翻車!陶哲軒等60+頂尖數(shù)學(xué)家合力提出新數(shù)學(xué)基準(zhǔn),大模型正確率通通不足2%
一水 發(fā)自 凹非寺量子位 | 公眾號 QbitAI讓大模型集體吃癟,數(shù)學(xué)題正確率通通不到2%! 獲大神卡帕西力薦,大模型新數(shù)學(xué)基準(zhǔn)來勢洶洶—— 一出手,曾在國際數(shù)學(xué)...
陶哲軒和Karpathy推薦的數(shù)學(xué)測試,讓全體LLM的數(shù)學(xué)幾乎得0分:解決率2%
夕小瑤科技說 原創(chuàng)作者 | 小鹿最近,出現(xiàn)了一個數(shù)學(xué)基準(zhǔn)集,讓大模型們的數(shù)學(xué)集體翻車,正確率還不到2%。 就是這家非營利研究機(jī)構(gòu)Epoch AI,它集合了世界最頂...
陶哲軒聯(lián)手60多位數(shù)學(xué)家出題,世界頂尖模型通過率僅2%!專家級數(shù)學(xué)基準(zhǔn),讓AI再苦戰(zhàn)數(shù)年
新智元報道編輯:Hjh 【新智元導(dǎo)讀】Epoch AI推出數(shù)學(xué)基準(zhǔn)FrontierMath,目前前沿模型測試成功率均低于2%!OpenAI研究科學(xué)家Noam Brown說道:「我喜歡看到新...
不讓視覺語言模型「盲猜」,性能竟直接提升一倍?
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
下載次數(shù)破39萬!CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案:Imagen3已采用
新智元報道編輯:LRST 【新智元導(dǎo)讀】VQAScore是一個利用視覺問答模型來評估由文本提示生成的圖像質(zhì)量的新方法;GenAI-Bench是一個包含復(fù)雜文本提示的基準(zhǔn)測...
高效評估多模態(tài)預(yù)訓(xùn)練對齊質(zhì)量,中科大提出模態(tài)融合率MIR
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
突破短視頻局限!MMBench 團(tuán)隊構(gòu)建中長視頻開放問答評測基準(zhǔn),全面評估多模態(tài)大模型視頻理解能力
新宇投稿 凹非寺量子位 | 公眾號 QbitAIGPT-4o 四月發(fā)布會掀起了視頻理解的熱潮,而開源領(lǐng)軍者Qwen2也對視頻毫不手軟,在各個視頻評測基準(zhǔn)上狠狠秀了一把肌肉...
控制電腦手機(jī)的智能體人人都能造,微軟開源OmniParser
機(jī)器之心報道 編輯:Panda大?模型控制計算機(jī)果真就是未來方向?最近這幾天,讓大模型具備控制計算機(jī)(包括電腦和手機(jī))的相關(guān)研究和應(yīng)用如雨后春筍般不斷涌現(xiàn)...
加強(qiáng)版Claude3.5正式上線,一句話操控電腦的時代真的要來了。
大數(shù)據(jù)文摘受權(quán) 轉(zhuǎn)載自數(shù)字生命卡茲克 作者:卡茲克、東毅 夜里十一點(diǎn),大洋彼岸早上8點(diǎn)整。 Claude帶著大貨閃亮登場了。 升級版的Claude 3.5 Sonnet,新模型...
開源版OpenAI再出「神作」,小模型吊打Llama 3!Ministral系列問世,邊緣AI開啟
新智元報道編輯:桃子 【新智元導(dǎo)讀】Mistral 7B誕生一周年之際,法國AI初創(chuàng)公司Mistral再次連發(fā)兩個輕量級模型Ministral 3B和Ministral 8B,性能趕超Llama 3...