標簽:準確率

程序員竊喜!卡了大模型脖子的Json輸出,OpenAI終于做到了100%正確

夕小瑤科技說 原創作者 | 海野OpenAI上次提到JSON模式的概念,還是在去年的DevDay上。那是ChatGPT第一次擁抱JSON模式。 但這個功能可以說是飽受詬病。 經常遇...
閱讀原文

揭秘!47頁文檔拆解蘋果智能,從架構、數據到訓練和優化

機器之心報道 機器之心編輯部在 2024 年全球開發者大會上,蘋果重磅推出了 Apple Intelligence,這是一個全新的個性化智能系統, 可以提供實用的智能服務,覆...
閱讀原文

Mistral新旗艦決戰Llama 3.1!最強開源Large 2 123B,扛鼎多語言編程全能王

新智元報道編輯: 【新智元導讀】緊跟著Meta的重磅發布,Mistral Large 2也帶著權重一起上新了,而且參數量僅為Llama 3.1 405B的三分之一。不僅在編碼、數學...
閱讀原文

OpenAI“最后一篇”超級對齊論文發布:大小模型相互博弈,輸出可讀性up

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI讓大小模型相互博弈,就能實現生成內容可讀性的提升! 這是來自OpenAI的正經研究,目標就是在保證準確率的同時,讓...
閱讀原文

端側設備AI代理優化框架問世,領域內準確率可達97%

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測試

機器之心報道 機器之心編輯部四大 VLM,竟都在盲人摸象? 讓現在最火的 SOTA 模型們(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)數一數兩條線有幾個交點,...
閱讀原文

Q*項目公開發布!研究團隊并非OpenAI

昆侖萬維 投稿量子位 | 公眾號 QbitAIQ*項目公開發布,可讓小模型達到參數量比其大數十倍、甚至上百倍模型的推理能力。 自去年11月伴隨著OpenAI內訌,其神秘Q...
閱讀原文

昆侖萬維攜手南洋理工大學搶發Q*算法:百倍提升7B模型推理能力

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

懸賞800萬的超難測試集,被GPT-4o實現新SOTA,準確率已達50%

克雷西 發自 凹非寺量子位 | 公眾號 QbitAIGTP-4o挑戰懸賞八百萬的超難數據集,實現SOTA! 數據集當中包含了各種類型的圖形推理題目,被挑戰發起者預言“大模...
閱讀原文

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界

新智元報道編輯:桃子喬楊 【新智元導讀】大模型是世界模型嗎?UA微軟等機構最新研究發現,GPT-4在復雜環境的模擬中,準確率甚至不及60%。對此,LeCun激動地...
閱讀原文

首次證實白盒Transformer可擴展性!馬毅教授CRATE-α:鯨吞14億數據,性能穩步提升

新智元報道編輯:LRS 【新智元導讀】CRATE-α是一種新型Transformer架構變體,通過設計改進提升了模型的可擴展性、性能和可解釋性,CRATE-α-Base在ImageNet分...
閱讀原文

清華接手,YOLOv10問世:性能大幅提升,登上GitHub熱榜

機器之心報道 機器之心編輯部相同性能情況下,延遲減少 46%,參數減少 25%。目標檢測系統的標桿 YOLO 系列,再次獲得了重磅升級。自今年 2 月 YOLOv9 發布之...
閱讀原文

芝大論文證明GPT-4選股準確率高達60%,人類股票分析師要下崗?AI大牛質疑數據污染

新智元報道編輯:編輯部 【新智元導讀】GPT-4在為人類選股時,表現竟然超越了大部分人類分析師,和針對金融訓練的專業模型?在沒有任何上下文的情況下,它們...
閱讀原文

谷歌數學版Gemini奧賽難題,堪比人類數學家!

新智元報道編輯:編輯部 【新智元導讀】I/O大會上,谷歌Gemini 1.5 Pro一系列更新讓開發者們再次沸騰。最新技術報告中,最引人注目的一點是,數學專業版1.5 P...
閱讀原文

AI學會隱藏思維暗中推理!不依賴人類經驗解決復雜任務,更黑箱了

夢晨 發自 凹非寺量子位 | 公眾號 QbitAIAI做數學題,真正的思考居然是暗中“心算”的? 紐約大學團隊新研究發現,即使不讓AI寫步驟,全用無意義的“……”代替,在...
閱讀原文
1234