標簽:測試
CoT提出者Jason Wei:大模型評估基準的「」
機器之心報道 機器之心編輯部Jason Wei 是思維鏈提出者,并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現能力的論文。目前他正在 OpenAI 進行工作。在 CV ...
GPT-4被證實具有「人類心智」登Nature!AI比人類更好察覺諷刺和暗示
新智元報道編輯:庸庸 【新智元導讀】關于AI是否具有「心智理論」一直存在很多爭議。Nature最新研究顯示,GPT-4的行為可與人類媲美,甚至能夠比人類更好地察...
GPT-4o成為全領域SOTA!基準測試遠超Gemini和Claude,多模態功能遠超GPT-4
新智元報道編輯:編輯部 【新智元導讀】OpenAI半小時的發布會讓很多人第一反應是直呼「失望」,但隨著官網放出更多demo以及更多網友開始試用,大家才發現GPT-...
GPT-4通過圖靈測試,勝率高達54%!UCSD新作:人類無法認出GPT-4
新智元報道編輯:桃子庸庸 【新智元導讀】GPT-4通過圖靈測試了!UCSD研究團隊通過實證研究,人類無法將GPT-4與人類進行區分。而且,有54%的情況下,它被判定...
今日arXiv最熱大模型論文:圖靈測試中,GPT-4仍不及人類!
夕小瑤科技說 原創作者 | Axe_越你跟分清智能和人類嗎? 2015年,在由香港大學主辦,以創新創業為主題的Dream Catchers論壇上,騰訊創始人馬化騰透露,在創業...
GPT-4o成全球網友新玩具,秒秒鐘紙質原型轉錄初始HTML,網友:谷歌你是一點流量攤不上啊
衡宇 發自 凹非寺量子位 | 公眾號 QbitAI好啊,不愧是OpenAI最新旗艦,打開各個社交軟件,GPT-4o的上手測試都唰唰唰往我首頁推。 請!看! 這,就是用上GPT-4...
OpenAI神秘gpt2正在A/B測試,奧特曼搶先劇透,網友已玩嗨
明敏 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI正在秘密A/B測試下一代模型,實力超強被懷疑是GPT-4.5或GPT-5。 就在奧特曼當謎語人暗示之后,兩款新模型悄悄...
今日arXiv最熱NLP大模型論文:對指令太敏感?山東大學提出一致性對齊法,治好大模型敏感體質!
夕小瑤科技說 原創作者 | Axe_越不知道大家在使用大語言模型(LLM)的時候有沒有遇到過,明明一模一樣的意思,哪怕只有一兩個字不同的指令給到大模型后,都會...
美國高調展示首個AI戰斗機!部長親自試駕全程未干預,10萬行代碼試飛21次
新智元報道編輯:編輯部 【新智元導讀】美軍戰斗機,能由AI完成自主空戰了!最近,美國空軍部長Kendall親自試駕了國防部正在研制的X-62A AI飛機。1小時的飛行...
GitHub版Devin上線,會打字就能開發應用,微軟CEO:重新定義IDE
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI微軟的“GitHub版Devin”——Copilot WorkSpace,終于上線了! WorkSpace是一種“Copilot原生”的全新開發環境,目的是讓...
國產黑馬砸來百萬算力福利,Llama 3微調快去沖!H800點擊就送,1.99元玩轉4090
新智元報道編輯:編輯部 【新智元導讀】才短短一周,微調Llama 3變體已經井噴了!去哪里微調Llama 3?這家國產黑馬早已上架了推理微調預訓練教程,更夸張的是...
微軟來大招:手機部署堪比GPT3.5高性能大模型!
夕小瑤科技說 原創作者 | 任同學 上周 LLaMa3 算是把關注度拉爆了,這才過了幾天,微軟已經宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-...
發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試
新智元報道編輯:編輯部 【新智元導讀】前段時間,微軟公布并開源了最新一代大模型WizardLM-2,號稱性能堪比GPT-4。不過,還未上線一天,模型權重和公告全被...
大模型一對一戰斗75萬輪,GPT-4奪冠,Llama 3位列第五
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI關于Llama 3,又有測試結果新鮮出爐—— 大模型評測社區LMSYS發布了一份大模型排行榜單,Llama 3位列第五,英文單項...
新測試基準發布,最強開源Llama 3尷尬了
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI如果試題太簡單,學霸和學渣都能考90分,拉不開差距…… 隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布,業界急需...