標(biāo)簽:錯(cuò)誤

賈佳亞團(tuán)隊(duì)新作:10k數(shù)據(jù)讓大模型數(shù)學(xué)能力超GPT-4

港中文賈佳亞團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI只要10k數(shù)據(jù),就能讓大模型的數(shù)學(xué)成績?cè)鲩L5.6%。 港中文賈佳亞團(tuán)隊(duì)推出了基于推理步驟的大模型優(yōu)化策略,能夠像...
閱讀原文

GPT-4批評(píng)GPT-4實(shí)現(xiàn)「自我提升」!OpenAI前超級(jí)對(duì)齊團(tuán)隊(duì)又一力作被公開

新智元報(bào)道編輯:喬楊 【新智元導(dǎo)讀】今天,OpenAI悄悄在博客上發(fā)布了一篇新論文——CriticGPT,而這也是前任超級(jí)對(duì)齊團(tuán)隊(duì)的「遺作」之一。CriticGPT同樣基于GP...
閱讀原文

大模型的高考數(shù)學(xué)成績單:及格已經(jīng)非常好了

機(jī)器之心發(fā)布 機(jī)器之心編輯部讓考生頭皮發(fā)麻的高考數(shù)學(xué),可難倒了頂尖 AI 大模型。 一年一度的高考即將落幕,衷心希望各位考生都超常發(fā)揮,考出滿意的好成績...
閱讀原文

ACL 2024 | 讓純LLM實(shí)現(xiàn)類人的符號(hào)邏輯推理能力,開源框架SymbCoT來了

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

一網(wǎng)打盡!深度學(xué)習(xí)常見問題!

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自算法進(jìn)階 1 前言 在傳統(tǒng)軟件工程中,程序問題(即Bugs)會(huì)導(dǎo)致程序崩潰,但開發(fā)人員可以通過檢查錯(cuò)誤來了解原因。 然而,在深度學(xué)習(xí)中,...
閱讀原文

陶哲軒看了都直呼內(nèi)行!谷歌等用LLM自動(dòng)證明定理拿頂會(huì)杰出論文,上下文越全證得越好

新智元報(bào)道編輯:alan 【新智元導(dǎo)讀】在軟件工程頂會(huì)ESEC/FSE上,來自馬薩諸塞大學(xué)、谷歌和伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)的研究人員發(fā)表了新的成果,...
閱讀原文

更適合中文LMM體質(zhì)的基準(zhǔn)CMMMU來了:超過30個(gè)細(xì)分學(xué)科,12K專家級(jí)題目

機(jī)器之心專欄 機(jī)器之心編輯部近期,隨著多模態(tài)大模型(LMM) 的能力不斷進(jìn)步,評(píng)估 LMM 性能的需求也日益增長。與此同時(shí),在中文環(huán)境下評(píng)估 LMM 的高級(jí)知識(shí)和...
閱讀原文

就像Word中的文本自動(dòng)更正一樣,大語言模型自動(dòng)更正化學(xué)工藝流程圖

將 ScienceAI設(shè)為星標(biāo)第一時(shí)間掌握新鮮的 AI for Science 資訊編輯| 紫羅過程工程是化學(xué)、物理、生物過程的設(shè)計(jì)、運(yùn)行、控制、優(yōu)化與強(qiáng)化。涉及大量的工業(yè)領(lǐng)...
閱讀原文

C++ 之父 Bjarne Stroustrup:我會(huì)為全球數(shù)十億行 C++ 代碼帶來一個(gè)嶄新的解決方案

作者|David Cassel 譯者 | 王強(qiáng) 策劃 | Tina 在 CppCon C++ 會(huì)議上,這位 C++ 的創(chuàng)建人明確了該編程語言中迫切需要的安全措施具體都有哪些。 Bjarne Stroust...
閱讀原文

最強(qiáng)的GPT-4V都考不過?基于大學(xué)考試的測試基準(zhǔn)MMMU誕生了

機(jī)器之心報(bào)道編輯:Panda目前最好的大型多模態(tài)模型 GPT-4V 與大學(xué)生誰更強(qiáng)?我們還不知道,但近日一個(gè)新的基準(zhǔn)數(shù)據(jù)集 MMMU 以及基于其的基準(zhǔn)測試或許能給我們...
閱讀原文

LLM準(zhǔn)確率飆升27%!谷歌DeepMind提出全新「后退一步」提示技術(shù)

新智元報(bào)道編輯:拉燕【新智元導(dǎo)讀】谷歌DeepMind全新提示技術(shù)「Step-Back Prompting」,讓LLM性能拉滿!前段時(shí)間,谷歌DeepMind提出了一種全新的「Step-Back...
閱讀原文

谷歌:LLM找不到推理錯(cuò)誤,但能糾正它

機(jī)器之心報(bào)道編輯:PandaLLM 找不到推理錯(cuò)誤,但卻能糾正錯(cuò)誤!今年,大型語言模型(LLM)成為 AI 領(lǐng)域關(guān)注的焦點(diǎn)。LLM 在各種自然語言處理(NLP)任務(wù)上取得...
閱讀原文

GPT-4 做「世界模型」,讓LLM從「錯(cuò)題」中學(xué)習(xí),推理能力顯著提升

機(jī)器之心報(bào)道編輯:蛋醬、杜偉從錯(cuò)誤中學(xué)習(xí),不只是人類可以做到。近日有研究發(fā)現(xiàn),大模型其實(shí)也可以借鑒這種思路。這段時(shí)間,大語言模型在各種 NLP 任務(wù)中取...
閱讀原文

GPT-4V連小學(xué)生都不如?最新基準(zhǔn)測試錯(cuò)誤率竟高達(dá)90%:紅綠燈認(rèn)錯(cuò)、勾股定理也不會(huì)

新智元報(bào)道編輯:LRS 好困【新智元導(dǎo)讀】馬里蘭大學(xué)發(fā)布首個(gè)專為VLM設(shè)計(jì)的基準(zhǔn)測試HallusionBench,全面測試GPT-4V視覺錯(cuò)誤和語言幻覺。GPT-4被吹的神乎其神...
閱讀原文
123