ACL 2024 | 提升大模型持續(xù)學(xué)習(xí)性能,哈工大、度小滿提出共享注意力框架SAPT

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ACL 2024 | 提升大模型持續(xù)學(xué)習(xí)性能,哈工大、度小滿提出共享注意力框架SAPT
關(guān)鍵字:注意力,任務(wù),模塊,模型,災(zāi)難性
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本論文作者趙偉翔是哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心 2021 級(jí)直博生,導(dǎo)師為趙妍妍教授和秦兵教授,主要研究方向?yàn)閷?duì)話系統(tǒng)、大語言模型對(duì)齊等。他曾以第一作者在 ACL、AAAI、IJCAI、COLING 等會(huì)議上發(fā)表論文。
個(gè)人主頁: https://circle-hit.github.io/
在大模型實(shí)際部署落地的過程中,如何賦予大模型持續(xù)學(xué)習(xí)的能力是一個(gè)至關(guān)重要的挑戰(zhàn)。這使其能夠動(dòng)態(tài)適應(yīng)新的任務(wù)并不斷獲得新的知識(shí)。大模型的持續(xù)學(xué)習(xí)主要面臨兩個(gè)重大挑戰(zhàn),分別是災(zāi)難性遺忘和知識(shí)遷移。災(zāi)難性遺忘是指模型在學(xué)習(xí)新任務(wù)時(shí),會(huì)忘記其已掌握的舊任務(wù)。知識(shí)遷移則涉及到如何在學(xué)習(xí)新任務(wù)時(shí)有效地應(yīng)用舊任務(wù)的知識(shí)來提升新任務(wù)學(xué)習(xí)的效果。
為了有效應(yīng)對(duì)以上難題,哈工大聯(lián)合
原文鏈接:ACL 2024 | 提升大模型持續(xù)學(xué)習(xí)性能,哈工大、度小滿提出共享注意力框架SAPT
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)