標簽:錯誤
賈佳亞團隊新作:10k數(shù)據(jù)讓大模型數(shù)學能力超GPT-4
港中文賈佳亞團隊 投稿量子位 | 公眾號 QbitAI只要10k數(shù)據(jù),就能讓大模型的數(shù)學成績增長5.6%。 港中文賈佳亞團隊推出了基于推理步驟的大模型優(yōu)化策略,能夠像...
 GPT-4批評GPT-4實現(xiàn)「自我提升」!OpenAI前超級對齊團隊又一力作被公開
新智元報道編輯:喬楊 【新智元導讀】今天,OpenAI悄悄在博客上發(fā)布了一篇新論文——CriticGPT,而這也是前任超級對齊團隊的「遺作」之一。CriticGPT同樣基于GP...
 大模型的高考數(shù)學成績單:及格已經(jīng)非常好了
機器之心發(fā)布 機器之心編輯部讓考生頭皮發(fā)麻的高考數(shù)學,可難倒了頂尖 AI 大模型。 一年一度的高考即將落幕,衷心希望各位考生都超常發(fā)揮,考出滿意的好成績...
 ACL 2024 | 讓純LLM實現(xiàn)類人的符號邏輯推理能力,開源框架SymbCoT來了
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)...
 一網(wǎng)打盡!深度學習常見問題!
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自算法進階 1 前言 在傳統(tǒng)軟件工程中,程序問題(即Bugs)會導致程序崩潰,但開發(fā)人員可以通過檢查錯誤來了解原因。 然而,在深度學習中,...
 謝爾蓋·布林狠批Gemini「搞砸了」!51歲創(chuàng)始人回歸,CEO劈柴或?qū)ⅲ?/a>
新智元報道編輯:編輯部 【新智元導讀】近日,隱身幕后多年的谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林現(xiàn)身AGI House,對于Gemini的近況向公眾作出解釋,網(wǎng)友紛紛猜測,這是...
 陶哲軒看了都直呼內(nèi)行!谷歌等用LLM自動證明定理拿頂會杰出論文,上下文越全證得越好
新智元報道編輯:alan 【新智元導讀】在軟件工程頂會ESEC/FSE上,來自馬薩諸塞大學、谷歌和伊利諾伊大學厄巴納-香檳分校(UIUC)的研究人員發(fā)表了新的成果,...
 更適合中文LMM體質(zhì)的基準CMMMU來了:超過30個細分學科,12K專家級題目
機器之心專欄 機器之心編輯部近期,隨著多模態(tài)大模型(LMM) 的能力不斷進步,評估 LMM 性能的需求也日益增長。與此同時,在中文環(huán)境下評估 LMM 的高級知識和...
 就像Word中的文本自動更正一樣,大語言模型自動更正化學工藝流程圖
將 ScienceAI設(shè)為星標第一時間掌握新鮮的 AI for Science 資訊編輯| 紫羅過程工程是化學、物理、生物過程的設(shè)計、運行、控制、優(yōu)化與強化。涉及大量的工業(yè)領(lǐng)...
 C++ 之父 Bjarne Stroustrup:我會為全球數(shù)十億行 C++ 代碼帶來一個嶄新的解決方案
作者|David Cassel 譯者 | 王強 策劃 | Tina 在 CppCon C++ 會議上,這位 C++ 的創(chuàng)建人明確了該編程語言中迫切需要的安全措施具體都有哪些。 Bjarne Stroust...
 最強的GPT-4V都考不過?基于大學考試的測試基準MMMU誕生了
機器之心報道編輯:Panda目前最好的大型多模態(tài)模型 GPT-4V 與大學生誰更強?我們還不知道,但近日一個新的基準數(shù)據(jù)集 MMMU 以及基于其的基準測試或許能給我們...
 LLM準確率飆升27%!谷歌DeepMind提出全新「后退一步」提示技術(shù)
新智元報道編輯:拉燕【新智元導讀】谷歌DeepMind全新提示技術(shù)「Step-Back Prompting」,讓LLM性能拉滿!前段時間,谷歌DeepMind提出了一種全新的「Step-Back...
 谷歌:LLM找不到推理錯誤,但能糾正它
機器之心報道編輯:PandaLLM 找不到推理錯誤,但卻能糾正錯誤!今年,大型語言模型(LLM)成為 AI 領(lǐng)域關(guān)注的焦點。LLM 在各種自然語言處理(NLP)任務上取得...
 GPT-4 做「世界模型」,讓LLM從「錯題」中學習,推理能力顯著提升
機器之心報道編輯:蛋醬、杜偉從錯誤中學習,不只是人類可以做到。近日有研究發(fā)現(xiàn),大模型其實也可以借鑒這種思路。這段時間,大語言模型在各種 NLP 任務中取...
 GPT-4V連小學生都不如?最新基準測試錯誤率竟高達90%:紅綠燈認錯、勾股定理也不會
新智元報道編輯:LRS 好困【新智元導讀】馬里蘭大學發(fā)布首個專為VLM設(shè)計的基準測試HallusionBench,全面測試GPT-4V視覺錯誤和語言幻覺。GPT-4被吹的神乎其神...
  
  
  
  
  粵公網(wǎng)安備 44011502001135號
 粵公網(wǎng)安備 44011502001135號