AIGC動態歡迎閱讀
原標題:討論下一個token預測時,我們可能正在走進陷阱
關鍵字:模型,本文,問題,任務,作者
文章來源:機器之心
內容字數:8852字
內容摘要:
機器之心報道
編輯:趙陽自香農在《通信的數學原理》一書中提出「下一個 token 預測任務」之后,這一概念逐漸成為現代語言模型的核心部分。最近,圍繞下一個 token 預測的討論日趨激烈。
然而,越來越多的人認為,以下一個 token 的預測為目標只能得到一個優秀的「即興表演藝術家」,并不能真正模擬人類思維。人類會在執行計劃之前在頭腦中進行細致的想象、策劃和回溯。遺憾的是,這種策略并沒有明確地構建在當今語言模型的框架中。對此,部分學者如 LeCun,在其論文中已有所評判。
在一篇論文中,來自蘇黎世聯邦理工學院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 對這個話題進行了深入分析,指出了當前爭論沒有關注到的本質問題:即沒有將訓練階段的 teacher forcing 模式和推理階段的自回歸模式加以區分。論文標題:THE PITFALLS OF NEXT-TOKEN PREDICTION
論文地址:https://arxiv.org/pdf/2403.06963.pdf
項目地址:https://github.com/gregorbachman
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...