推理?別鬧了!現(xiàn)在的 AI 仍然連小學(xué)數(shù)學(xué)題都搞不定!

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:推理?別鬧了!現(xiàn)在的 AI 仍然連小學(xué)數(shù)學(xué)題都搞不定!
關(guān)鍵字:模型,準(zhǔn)確率,研究人員,測試,能力
文章來源:AI范兒
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
“
研究發(fā)現(xiàn),盡管OpenAI和Google等公司強(qiáng)調(diào)其AI模型的推理能力,但蘋果的研究表明,當(dāng)前的大型語言模型(LLMs)在面對(duì)微小變化時(shí),推理能力脆弱且不可靠。測試結(jié)果顯示,模型依賴于模式匹配,而非真正的邏輯推理,揭示了其在復(fù)雜任務(wù)中的局限性。最近,OpenAI 和 Google 等公司一直在宣傳他們的人工智能(AI)模型在“推理”方面的先進(jìn)能力,認(rèn)為這是技術(shù)發(fā)展的重要一步。然而,蘋果公司的六位工程師最近做的一項(xiàng)研究發(fā)現(xiàn),這些大型語言模型(LLMs)在面對(duì)一些看似小的變化時(shí),其數(shù)學(xué)推理能力其實(shí)很脆弱,也不太可靠。
研究表明,LLMs并沒有真正理解基本概念,而是通過匹配訓(xùn)練數(shù)據(jù)中的概率模式來工作。研究人員認(rèn)為:“現(xiàn)在的LLMs并不具備真正的邏輯推理能力,它們只是模仿在訓(xùn)練中見過的推理步驟。”
在一篇名為《GSM-Symbolic: 理解大型語言模型數(shù)學(xué)推理的局限性》的論文中,這六位研究人員使用了一個(gè)標(biāo)準(zhǔn)化的數(shù)據(jù)集,里面有超過8000道小學(xué)級(jí)別的數(shù)學(xué)題,通常用來測試現(xiàn)代LLMs的推理能力。他們創(chuàng)新性地修改了測試數(shù)據(jù),動(dòng)態(tài)替換了一些名字和數(shù)字。例如,原本是索菲為侄子買31塊積木的問題,可
原文鏈接:推理?別鬧了!現(xiàn)在的 AI 仍然連小學(xué)數(shù)學(xué)題都搞不定!
聯(lián)系作者
文章來源:AI范兒
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)