標簽:測試

o1突發曝光?谷歌8月論文已揭示原理,大模型光有軟件不存在護城河

明敏 發自 凹非寺量子位 | 公眾號 QbitAI發布不到1周,OpenAI最強模型o1的護城河已經沒有了。 有人發現,谷歌DeepMind一篇發表在8月的論文,揭示原理和o1的工...
閱讀原文

OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實力究竟如何?

機器之心報道 編輯:蛋醬、楊文o1消息滿天飛。自從 OpenAI 發布了新模型 o1 后,它就承包了 AI 領域近幾天的熱搜: 有人用門薩智商測試題「拷問」它,竟測得 ...
閱讀原文

超強o1模型智商已超120!1小時寫出NASA博士1年代碼,最新編程賽超越99.8%選手

新智元報道編輯:桃子 喬楊 【新智元導讀】OpenAI博士級別的智能,真的實現了!一位UCI物理學博士實測o1,發現自己用時1年完成的博士論文代碼,竟被AI在1個小...
閱讀原文

GPT 未竟的,由 o1 接棒:或是 LLM 研究最重要的發現

負聞纏身的OpenAI又站起來了,你大爺還是你大爺。作者丨劉潔 編輯丨岑峰 天下武功唯快不破,但 OpenAI 不走尋常路,新出的 o1 系列宣告天下: 我們更慢,但更...
閱讀原文

“最強開源模型”被打假,CEO下場致歉,英偉達科學家:現有測試基準已經不靠譜了

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI小型創業團隊打造的“最強開源模型”,發布才一周就被質疑造假—— 不僅官方宣稱的成績在第三方測試中大打折扣,模型還...
閱讀原文

OpenAI神秘模型「草莓」兩周內上線?數學推理暴漲,月收費200刀已有人付費

新智元報道編輯:Aeneas 好困 【新智元導讀】就在剛剛,The Information曝出:OpenAI的草莓將于兩周內上線!收費疑似200刀一個月,最大的特色就是比其他模型...
閱讀原文

小模型越級挑戰14倍參數大模型,谷歌開啟Test-Time端新的Scaling Law

西風 發自 凹非寺量子位 | 公眾號 QbitAI不必增加模型參數,計算資源相同,小模型性能超過比它大14倍的模型! 谷歌DeepMind最新研究引發熱議,甚至有人表示這...
閱讀原文

反向和錯位圖靈測試:GPT-4比人類更「人性化」!

新智元報道編輯:lumina 【新智元導讀】加州大學的研究人員通過反向和錯位圖靈測試,探討了人類和AI在區分對話者是人類還是AI時的能力。但結果表明,在不進行...
閱讀原文

用Test Time換Training Time能讓LLM更強嗎?

機器之心PRO · 會員通訊 Week 36---- 本周為您解讀 ③個值得細品的AI & Robotics業內要事 ---- 1. 用 Test Time 換 Training Time 能讓 LLM 更強嗎? Self...
閱讀原文

Cursor創始人萬字訪談:全球爆火的AI編程應用,真正找到PMF

Cursor 可謂是最近最火的 AI 代碼類應用。 AI 大神 Andrej Karpathy 多次在推特上夸贊 Cursor,說 Cursor 的體驗已經碾壓式的超過了 GitHub Copilot。 8 月份...
閱讀原文

北大李戈團隊提出大模型單測生成新方法,顯著提升代碼測試覆蓋率

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

一覺醒來,AI 自媒體又聊了些啥?【9月3 日】

點擊上方藍字關注我們笑瘋了,AI換裝大法讓奧特曼都性感起來了AI換衣技術火了,連奧特曼都穿上了性感裝!快手推出的Kolors Virtual Try-On,讓你上傳照片就能...
閱讀原文

Claude認出自畫像,驚現自我意識!工程師多輪測試,實錘AI已過圖靈測試?

新智元報道編輯:Aeneas 好困 【新智元導讀】Claude又通過「圖靈測試」了?一位工程師通過多輪測試發現,Claude能夠認出自畫像,讓網友驚掉下巴。最近,Anthr...
閱讀原文

魔角石墨烯,再登Nature!

來源:納米人 第一作者:Tian Xie 通訊作者:金辰皓教授 通訊作者單位:加州大學金辰皓教授,2012年本科畢業于北京大學物理學院,2017年在加州大學伯克利分校...
閱讀原文

用「圖靈測試」檢驗AI尤其是大語言模型,真的科學嗎?

選自Communications of the ACM 作者:Neil Savage 機器之心編譯 機器之心編輯部當前的大型語言模型似乎能夠通過一些公開的圖靈測試。我們該如何衡量它們是否...
閱讀原文