標簽:測試

中國存儲廠,殺入頂分桌

如果不是 2016 年,AI 在圍棋上大放異彩,關于高性能存儲的故事本不會這么復雜——它應該是一場玩家數量極其有限的牌局,由英特爾、IBM、DataDirect Networks、...
閱讀原文

神秘模型“小熊貓”一夜刷屏:排名超Flux、Midjourney,網友:一看就中國的

一水 發自 凹非寺量子位 | 公眾號 QbitAI一夜之間,名為“red_panda”(小熊貓)的神秘文生圖模型狠狠火了!! 登頂文生圖競技場,直接將Flux、Midjourney等一...
閱讀原文

AI玩毀滅人類游戲,全程自主操控驚呆教授!Claude 3.5硬核實測來襲

新智元報道編輯:桃子 【新智元導讀】Claude游戲測試,能打幾分?在持續一個多小時毀滅人類游戲中,Claude能制定出長期策略,令人驚喜的同時,也暴露出了AI短...
閱讀原文

靠AI,2年時間大漲4倍!扒一扒你每天都用的這只小綠鳥

衡宇 克雷西 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI還是個虧成無底洞的銷金窟,但借力OpenAI輸出的語言學習軟件,已經賺得起飛了。 沒錯,就是你可能也很...
閱讀原文

國產底盤約戰奔馳S級,結果太讓人意外了…

一凡 發自 凹非寺量子位 | 公眾號 QbitAIAI正在重塑千行萬業,汽車工業也不例外。 最近,奔馳S級和蔚來ET7在北京順義的專業測試場地,進行了底盤對比測試。 ...
閱讀原文

這個重磅新功能讓大模型像人類一樣操控鼠標、鍵盤,成熟的 AI 要學會自己打工了

一句話 模擬人類 用電腦天下苦 OpenAI 擠牙膏久矣。 環顧宇內,能夠與 OpenAI 抗衡的對手屈指可數,Anthropic 旗下的 Claude 模型算是一個靠譜的勁敵。 盼星...
閱讀原文

推理?別鬧了!現在的 AI 仍然連小學數學題都搞不定!

“ 研究發現,盡管OpenAI和Google等公司強調其AI模型的推理能力,但蘋果的研究表明,當前的大型語言模型(LLMs)在面對微小變化時,推理能力脆弱且不可靠。測...
閱讀原文

「世界開源新王」跌落神壇?重測跑分暴跌實錘造假,2人團隊光速「滑跪」

新智元報道編輯:Aeneas 好困 【新智元導讀】「世界開源新王」Reflection 70B,才坐上王座沒幾天就被打假,跌落神壇了!甚至有人質疑,它莫不是套殼的Sonnet ...
閱讀原文

Jim Fan再談基準測試之弊!Hugging Face開源套件LightEval領跑LLM評估新篇章

新智元報道編輯:Mindy 【新智元導讀】HuggingFace推出LightEval,為AI評估帶來透明度和定制化,開啟AI模型評估的新時代。在AI的世界里,模型的評估往往被看...
閱讀原文

Windows 競技場:面向下一代AI Agent的測試集

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

耗資1.3萬,ASU團隊揭秘o1推理王者!碾壓所有LLM成本超高,關鍵還會PUA

新智元報道編輯:桃子 好困 【新智元導讀】LLM不會規劃,大推理模型o1可以嗎?ASU團隊最新研究發現,o1-preview推理規劃能力是所有模型之最,但仍未觸及天花...
閱讀原文

無謂加班拖慢開發、AI 自動測試會給自己挖坑?世界編程大師:不懂編程只會用 AI 助手是行業災難!

編輯 | 蔡芳芳、Tina 在當今快速發展的軟件行業中,不斷涌現的新理念、技術和工具對開發者的工作方式產生了深遠的影響。那么,敏捷開發在現代軟件開發中還適...
閱讀原文

調研219篇文獻,全面了解GenAI在自適應系統中的現狀與研究路線圖

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

谷歌Gemini數學反超o1預覽版!成本僅1/10、無需額外思考時間,舊范式還沒有死

小交 發自 凹非寺量子位 | 公眾號 QbitAI數學擊敗o1-preview,成本僅為十分之一,并且幾乎沒有思考延遲! OpenAI《Her》全量開放同一天,谷歌Gemini 1.5迎來...
閱讀原文

LLM仍然不能規劃,刷屏的OpenAI o1遠未達到飽和

機器之心報道 編輯:陳陳、小舟實驗證明,大模型的 System 2 能力還有待開發。 規劃行動方案以實現所需狀態的能力一直被認為是智能體的核心能力。隨著大型語...
閱讀原文