AIGC動態歡迎閱讀
原標題:MIT斯坦福Transformer最新研究:過度訓練讓中度模型「涌現」結構泛化能力
文章來源:新智元
內容字數:7150字
內容摘要:新智元報道編輯:潤【新智元導讀】過度訓練讓中度模型出現了結構泛化能力。對于人類來說,句子是分層的。句子的層次結構對于表達和理解都相當重要。但是在自然語言處理中,之前的研究認為,在泛化到新的結構輸入時,以Transformer為代表的神經序列模型似乎很難有效地捕捉到這種句子的層級結構。但是斯坦福和MIT的研究人員在最近的研究中發現。如果對Transformer類的模型進行長時間的訓練之后,它能獲得這種結構性的泛化能力。研究人員將這種現象稱為:結構頓悟(Structural Grokking,SG)Grokking這個詞是一個作家在書中造出來的詞,中文大概翻譯成「頓悟」。微博網友木遙老師把這個詞解釋為:一個高度復雜的神經網絡在漫長的訓練期內一直只能記住訓練樣本的信息,幾乎沒有泛化能力,但到了某一刻,它的泛化水平忽然跳了出來,而且非常完美??梢韵胂蟪梢粋€神經網絡經歷了一個「aha moment」…
原文鏈接:點此閱讀原文:MIT斯坦福Transformer最新研究:過度訓練讓中度模型「涌現」結構泛化能力
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...