討論下一個(gè)token預(yù)測(cè)時(shí),我們可能正在走進(jìn)陷阱
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:討論下一個(gè)token預(yù)測(cè)時(shí),我們可能正在走進(jìn)陷阱
關(guān)鍵字:模型,本文,問(wèn)題,任務(wù),作者
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8852字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:趙陽(yáng)自香農(nóng)在《通信的數(shù)學(xué)原理》一書中提出「下一個(gè) token 預(yù)測(cè)任務(wù)」之后,這一概念逐漸成為現(xiàn)代語(yǔ)言模型的核心部分。最近,圍繞下一個(gè) token 預(yù)測(cè)的討論日趨激烈。
然而,越來(lái)越多的人認(rèn)為,以下一個(gè) token 的預(yù)測(cè)為目標(biāo)只能得到一個(gè)優(yōu)秀的「即興表演藝術(shù)家」,并不能真正模擬人類思維。人類會(huì)在執(zhí)行計(jì)劃之前在頭腦中進(jìn)行細(xì)致的想象、策劃和回溯。遺憾的是,這種策略并沒(méi)有明確地構(gòu)建在當(dāng)今語(yǔ)言模型的框架中。對(duì)此,部分學(xué)者如 LeCun,在其論文中已有所評(píng)判。
在一篇論文中,來(lái)自蘇黎世聯(lián)邦理工學(xué)院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 對(duì)這個(gè)話題進(jìn)行了深入分析,指出了當(dāng)前爭(zhēng)論沒(méi)有關(guān)注到的本質(zhì)問(wèn)題:即沒(méi)有將訓(xùn)練階段的 teacher forcing 模式和推理階段的自回歸模式加以區(qū)分。論文標(biāo)題:THE PITFALLS OF NEXT-TOKEN PREDICTION
論文地址:https://arxiv.org/pdf/2403.06963.pdf
項(xiàng)目地址:https://github.com/gregorbachman
原文鏈接:討論下一個(gè)token預(yù)測(cè)時(shí),我們可能正在走進(jìn)陷阱
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)