標簽:測試

CoT提出者Jason Wei:大模型評估基準的「」

機器之心報道 機器之心編輯部Jason Wei 是思維鏈提出者,并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現能力的論文。目前他正在 OpenAI 進行工作。在 CV ...
閱讀原文

GPT-4被證實具有「人類心智」登Nature!AI比人類更好察覺諷刺和暗示

新智元報道編輯:庸庸 【新智元導讀】關于AI是否具有「心智理論」一直存在很多爭議。Nature最新研究顯示,GPT-4的行為可與人類媲美,甚至能夠比人類更好地察...
閱讀原文

GPT-4o成為全領域SOTA!基準測試遠超Gemini和Claude,多模態功能遠超GPT-4

新智元報道編輯:編輯部 【新智元導讀】OpenAI半小時的發布會讓很多人第一反應是直呼「失望」,但隨著官網放出更多demo以及更多網友開始試用,大家才發現GPT-...
閱讀原文

GPT-4通過圖靈測試,勝率高達54%!UCSD新作:人類無法認出GPT-4

新智元報道編輯:桃子庸庸 【新智元導讀】GPT-4通過圖靈測試了!UCSD研究團隊通過實證研究,人類無法將GPT-4與人類進行區分。而且,有54%的情況下,它被判定...
閱讀原文

今日arXiv最熱大模型論文:圖靈測試中,GPT-4仍不及人類!

夕小瑤科技說 原創作者 | Axe_越你跟分清智能和人類嗎? 2015年,在由香港大學主辦,以創新創業為主題的Dream Catchers論壇上,騰訊創始人馬化騰透露,在創業...
閱讀原文

GPT-4o成全球網友新玩具,秒秒鐘紙質原型轉錄初始HTML,網友:谷歌你是一點流量攤不上啊

衡宇 發自 凹非寺量子位 | 公眾號 QbitAI好啊,不愧是OpenAI最新旗艦,打開各個社交軟件,GPT-4o的上手測試都唰唰唰往我首頁推。 請!看! 這,就是用上GPT-4...
閱讀原文

OpenAI神秘gpt2正在A/B測試,奧特曼搶先劇透,網友已玩嗨

明敏 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI正在秘密A/B測試下一代模型,實力超強被懷疑是GPT-4.5或GPT-5。 就在奧特曼當謎語人暗示之后,兩款新模型悄悄...
閱讀原文

今日arXiv最熱NLP大模型論文:對指令太敏感?山東大學提出一致性對齊法,治好大模型敏感體質!

夕小瑤科技說 原創作者 | Axe_越不知道大家在使用大語言模型(LLM)的時候有沒有遇到過,明明一模一樣的意思,哪怕只有一兩個字不同的指令給到大模型后,都會...
閱讀原文

美國高調展示首個AI戰斗機!部長親自試駕全程未干預,10萬行代碼試飛21次

新智元報道編輯:編輯部 【新智元導讀】美軍戰斗機,能由AI完成自主空戰了!最近,美國空軍部長Kendall親自試駕了國防部正在研制的X-62A AI飛機。1小時的飛行...
閱讀原文

GitHub版Devin上線,會打字就能開發應用,微軟CEO:重新定義IDE

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI微軟的“GitHub版Devin”——Copilot WorkSpace,終于上線了! WorkSpace是一種“Copilot原生”的全新開發環境,目的是讓...
閱讀原文

國產黑馬砸來百萬算力福利,Llama 3微調快去沖!H800點擊就送,1.99元玩轉4090

新智元報道編輯:編輯部 【新智元導讀】才短短一周,微調Llama 3變體已經井噴了!去哪里微調Llama 3?這家國產黑馬早已上架了推理微調預訓練教程,更夸張的是...
閱讀原文

微軟來大招:手機部署堪比GPT3.5高性能大模型!

夕小瑤科技說 原創作者 | 任同學 上周 LLaMa3 算是把關注度拉爆了,這才過了幾天,微軟已經宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-...
閱讀原文

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

新智元報道編輯:編輯部 【新智元導讀】前段時間,微軟公布并開源了最新一代大模型WizardLM-2,號稱性能堪比GPT-4。不過,還未上線一天,模型權重和公告全被...
閱讀原文

大模型一對一戰斗75萬輪,GPT-4奪冠,Llama 3位列第五

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI關于Llama 3,又有測試結果新鮮出爐—— 大模型評測社區LMSYS發布了一份大模型排行榜單,Llama 3位列第五,英文單項...
閱讀原文

新測試基準發布,最強開源Llama 3尷尬了

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI如果試題太簡單,學霸和學渣都能考90分,拉不開差距…… 隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布,業界急需...
閱讀原文
1567899,586