MIT斯坦福Transformer最新研究：過度訓練讓中度模型「涌現」結構泛化能力

AIGC動態1年前 (2023)發布新智元

AIGC動態歡迎閱讀

原標題：MIT斯坦福Transformer最新研究：過度訓練讓中度模型「涌現」結構泛化能力

文章來源：新智元

內容字數：7150字

內容摘要：新智元報道編輯：潤【新智元導讀】過度訓練讓中度模型出現了結構泛化能力。對于人類來說，句子是分層的。句子的層次結構對于表達和理解都相當重要。但是在自然語言處理中，之前的研究認為，在泛化到新的結構輸入時，以Transformer為代表的神經序列模型似乎很難有效地捕捉到這種句子的層級結構。但是斯坦福和MIT的研究人員在最近的研究中發現。如果對Transformer類的模型進行長時間的訓練之后，它能獲得這種結構性的泛化能力。研究人員將這種現象稱為：結構頓悟（Structural Grokking，SG）Grokking這個詞是一個作家在書中造出來的詞，中文大概翻譯成「頓悟」。微博網友木遙老師把這個詞解釋為：一個高度復雜的神經網絡在漫長的訓練期內一直只能記住訓練樣本的信息，幾乎沒有泛化能力，但到了某一刻，它的泛化水平忽然跳了出來，而且非常完美?？梢韵胂蟪梢粋€神經網絡經歷了一個「aha moment」…

原文鏈接：點此閱讀原文：MIT斯坦福Transformer最新研究：過度訓練讓中度模型「涌現」結構泛化能力

聯系作者

文章來源：新智元

作者微信：AI_era

作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # 報告 # 模型 # 研究人員 # 結構 # 結構性

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

MIT斯坦福Transformer最新研究：過度訓練讓中度模型「涌現」結構泛化能力

AIGC動態歡迎閱讀

聯系作者

如果沒有AI算力，大模型這場戰役我們可能勝不了

Sam Altman當選“TIME時代周刊”2023年度最佳CEO！還有梅西、Taylor Swift當選...

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

MIT斯坦福Transformer最新研究：過度訓練讓中度模型「涌現」結構泛化能力

AIGC動態歡迎閱讀

聯系作者

如果沒有AI算力，大模型這場戰役我們可能勝不了

Sam Altman當選“TIME時代周刊”2023年度最佳CEO！還有梅西、Taylor Swift當選...

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

如果沒有AI算力，大模型這場戰役我們可能勝不了

Sam Altman當選“TIME時代周刊”2023年度最佳CEO！還有梅西、Taylor Swift當選...