ICML 2024 | 揭示非線形Transformer在上下文學(xué)習(xí)中學(xué)習(xí)和泛化的機(jī)制

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ICML 2024 | 揭示非線形Transformer在上下文學(xué)習(xí)中學(xué)習(xí)和泛化的機(jī)制
關(guān)鍵字:任務(wù),本文,上下文,理論,模型
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者李宏康,美國(guó)倫斯勒理工大學(xué)電氣、計(jì)算機(jī)與系統(tǒng)工程系在讀博士生,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。研究方向包括深度學(xué)習(xí)理論,大語(yǔ)言模型理論,統(tǒng)計(jì)機(jī)器學(xué)習(xí)等等。目前已在 ICLR/ICML/Neurips 等 AI 頂會(huì)發(fā)表多篇論文。
上下文學(xué)習(xí) (in-context learning, 簡(jiǎn)寫為 ICL) 已經(jīng)在很多 LLM 有關(guān)的應(yīng)用中展現(xiàn)了強(qiáng)大的能力,但是對(duì)其理論的分析仍然比較有限。人們依然試圖理解為什么基于 Transformer 架構(gòu)的 LLM 可以展現(xiàn)出 ICL 的能力。
近期,一個(gè)來(lái)自美國(guó)倫斯勒理工大學(xué)和 IBM 研究院的團(tuán)隊(duì)從優(yōu)化和泛化理論的角度分析了帶有非線性注意力模塊 (attention) 和多層感知機(jī) (MLP) 的 Transforme
原文鏈接:ICML 2024 | 揭示非線形Transformer在上下文學(xué)習(xí)中學(xué)習(xí)和泛化的機(jī)制
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)