討論下一個(gè)token預(yù)測時(shí)，我們可能正在走進(jìn)陷阱

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：討論下一個(gè)token預(yù)測時(shí)，我們可能正在走進(jìn)陷阱
關(guān)鍵字：模型,本文,問題,任務(wù),作者
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：8852字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：趙陽自香農(nóng)在《通信的數(shù)學(xué)原理》一書中提出「下一個(gè) token 預(yù)測任務(wù)」之后，這一概念逐漸成為現(xiàn)代語言模型的核心部分。最近，圍繞下一個(gè) token 預(yù)測的討論日趨激烈。
然而，越來越多的人認(rèn)為，以下一個(gè) token 的預(yù)測為目標(biāo)只能得到一個(gè)優(yōu)秀的「即興表演藝術(shù)家」，并不能真正模擬人類思維。人類會(huì)在執(zhí)行計(jì)劃之前在頭腦中進(jìn)行細(xì)致的想象、策劃和回溯。遺憾的是，這種策略并沒有明確地構(gòu)建在當(dāng)今語言模型的框架中。對此，部分學(xué)者如 LeCun，在其論文中已有所評判。
在一篇論文中，來自蘇黎世聯(lián)邦理工學(xué)院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 對這個(gè)話題進(jìn)行了深入分析，指出了當(dāng)前爭論沒有關(guān)注到的本質(zhì)問題：即沒有將訓(xùn)練階段的 teacher forcing 模式和推理階段的自回歸模式加以區(qū)分。論文標(biāo)題：THE PITFALLS OF NEXT-TOKEN PREDICTION
論文地址：https://arxiv.org/pdf/2403.06963.pdf
項(xiàng)目地址：https://github.com/gregorbachman

原文鏈接：討論下一個(gè)token預(yù)測時(shí)，我們可能正在走進(jìn)陷阱