AIGC動態歡迎閱讀
原標題:ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制
關鍵字:任務,本文,上下文,理論,模型
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者李宏康,美國倫斯勒理工大學電氣、計算機與系統工程系在讀博士生,本科畢業于中國科學技術大學。研究方向包括深度學習理論,大語言模型理論,統計機器學習等等。目前已在 ICLR/ICML/Neurips 等 AI 頂會發表多篇論文。
上下文學習 (in-context learning, 簡寫為 ICL) 已經在很多 LLM 有關的應用中展現了強大的能力,但是對其理論的分析仍然比較有限。人們依然試圖理解為什么基于 Transformer 架構的 LLM 可以展現出 ICL 的能力。
近期,一個來自美國倫斯勒理工大學和 IBM 研究院的團隊從優化和泛化理論的角度分析了帶有非線性注意力模塊 (attention) 和多層感知機 (MLP) 的 Transforme
原文鏈接:ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...