學(xué)術(shù)前沿 | Transformer究竟如何推理?基于樣例還是基于規(guī)則
AIGC動態(tài)歡迎閱讀
原標(biāo)題:學(xué)術(shù)前沿 | Transformer究竟如何推理?基于樣例還是基于規(guī)則
關(guān)鍵字:模型,加法,解讀,報告,測試
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
來源:北京大學(xué)人工智能研究院
導(dǎo)讀本文是對發(fā)表于ICML 2024的論文Case-based or rule-based: How Do Transformers Do the Math?的解讀。文章第一作者為來自北京大學(xué)物理學(xué)院、即將加入人工智能研究院讀博的胡逸。通訊作者為北京大學(xué)人工智能研究院助理教授張牧涵。論文地址:(點(diǎn)擊下方閱讀原文)
https://arxiv.org/abs/2402.17709
項目主頁:
https://github.com/GraphPKU/Case_or_Rule01Case-based or rule-based?盡管如 ChatGPT 這樣的大語言模型(Large Language Models, LLMs)已經(jīng)在各種復(fù)雜任務(wù)中展現(xiàn)出令人驚艷的性能,它們在處理一些對人類來說十分簡單的數(shù)學(xué)推理問題時仍會面臨困難,例如長整數(shù)加法。
人類可以輕松地學(xué)習(xí)加法的基本規(guī)則,例如豎式加法,并將其應(yīng)用于任意長度的新的加法問題,但 LLMs 卻難以做到這一點(diǎn)。相反,它們可能會依賴于訓(xùn)練語料庫中見過的相似樣例來幫助解決問題。張牧涵團(tuán)隊的 ICML 2024 論文深刻
原文鏈接:學(xué)術(shù)前沿 | Transformer究竟如何推理?基于樣例還是基于規(guī)則
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)