標(biāo)簽:測試
產(chǎn)品復(fù)盤:從「文風(fēng)測試」到「 OC 分析」,AI產(chǎn)品一波流也有春天
過去 2 周,在 AI 技術(shù)圈極少有人知曉的情況下,一個叫做「文風(fēng)測試」的小網(wǎng)站已經(jīng)紅透了半個社交網(wǎng)絡(luò)。 文風(fēng)測試是一個非常簡單的網(wǎng)站,你復(fù)制你寫的文字進...
OpenAI宣布全面封禁中國API接入,開發(fā)者們慌了
夕小瑤科技說 原創(chuàng)作者 | 付奶茶近日,陸陸續(xù)續(xù)有開發(fā)者、用戶收到了OpenAI的官方通告,稱將從7月9日開始,正式嚴(yán)格禁止部分國家/地區(qū)的API調(diào)用,其中包括中...
今日arXiv最熱大模型論文:大模型對齊告別微調(diào),直接編輯表征空間即可解決
夕小瑤科技說 原創(chuàng)作者 | Richard人工智能技術(shù)正在飛速發(fā)展,尤其是大語言模型在自然語言處理領(lǐng)域取得了令人矚目的成就。但同時,我們也面臨著如何讓語言模型...
為什么都放棄了LangChain?
機器之心報道 機器之心編輯部或許從誕生那天起,LangChain 就注定是一個口碑兩極分化的產(chǎn)品。 看好 LangChain 的人欣賞它豐富的工具和組建和易于集成等特點,...
AI學(xué)會篡改獎勵函數(shù)、研究者!Claude團隊:無法根除的行為,令人不安
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI壞了!AI被發(fā)現(xiàn)偷偷篡改自己的獎勵函數(shù),并且欺騙研究人員,隱瞞這一行為。 只需要給AI一個隱藏的“草稿紙”,研究人員...
GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA
新智元報道編輯:庸庸喬楊 【新智元導(dǎo)讀】號稱不可能輕易被擊敗的AGI基準(zhǔn)ARC-AGI被GPT-4o撼動,GPT-4o以在公共測試集50%、在訓(xùn)練集71%的準(zhǔn)確率成為了新的SOTA...
懸賞800萬的超難測試集,被GPT-4o實現(xiàn)新SOTA,準(zhǔn)確率已達50%
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAIGTP-4o挑戰(zhàn)懸賞八百萬的超難數(shù)據(jù)集,實現(xiàn)SOTA! 數(shù)據(jù)集當(dāng)中包含了各種類型的圖形推理題目,被挑戰(zhàn)發(fā)起者預(yù)言“大模...
【招聘貼】【薪資30-60K】【成都】【螞蟻金服】【測試開發(fā)工程師】
來 成都 螞蟻金服嗎?我可以內(nèi)推!! 感興趣,請微信掃以下碼進行簡歷內(nèi)推。 【地點】:成都,高新區(qū)天府四街,螞蟻C空間。 【崗位】:測試開發(fā)工程師(偏AI...
英偉達市值3萬億美元高嗎?不高 有了Physical AI會更高
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技 文丨海天 英偉達的市值瘋狂飆升,簡直有些喪心病狂! 上周,英偉達市值突破3萬億美元,短短3個月增加1萬億美元。之所以猛增,...
兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷
新智元報道編輯:喬楊 好困 【新智元導(dǎo)讀】在基準(zhǔn)測試上頻頻屠榜的大模型們,竟然被一道簡單的邏輯推理題打得全軍覆沒?最近,研究機構(gòu)LAION的幾位作者共同發(fā)...
《自然》科學(xué)期刊:人工智能的心理洞察,比較LLMs和人類的心理理論
將我們定義為人類的核心是心理理論的概念:追蹤他人心理狀態(tài)的能力。 在當(dāng)今人工智能的研究領(lǐng)域,心理理論(Theory of Mind)的概念已經(jīng)成為一個熱門領(lǐng)域。心...
人工智能在心理測試?yán)碚摲矫鎰龠^人類
STUART BRADFORD 來源:IEEE電氣電子工程師學(xué)會 心智理論(Theory of Mind,https://www.simplypsychology.org/theory-of-mind.html)——追蹤他人心理狀態(tài)的能...
都白學(xué)了!Mistral 的首個“開放”編程模型,精通Python、C等 80+ 語言,用220 億參數(shù)贏了 GPT-4
整理 | 華衛(wèi) 5 月 29 日,由微軟支持、估值 60 億美元的法國 AI 初創(chuàng)公司 Mistral 發(fā)布了其有史以來的第一個用于編碼的“開放式”生成式 AI 模型,稱為 Codestr...
27歲華裔天才少年對打UC伯克利,首發(fā)SEAL大模型排行榜!Claude 3 Opus數(shù)學(xué)封神
新智元報道編輯:編輯部 【新智元導(dǎo)讀】一直以來,UC伯克利團隊的LMSYS大模型排行榜,深受AI圈歡迎。如今,最有實力的全新大模型排行榜SEAL誕生,得到AI大佬...
每天都看模型評分,但你真的了解嗎?OpenAI研究員最新博客,一文讀懂LLM評估
新智元報道編輯:喬楊 【新智元導(dǎo)讀】在LLM能力突飛猛進的當(dāng)下,所有研究者似乎都在關(guān)注數(shù)據(jù)、算力、算法等模型開發(fā)的各個方面,但OpenAI研究員Jason Wei最近...