「知識(shí)蒸餾+持續(xù)學(xué)習(xí)」最新綜述!哈工大、中科院出品:全新分類(lèi)體系,十大數(shù)據(jù)集全面實(shí)驗(yàn)
原標(biāo)題:「知識(shí)蒸餾+持續(xù)學(xué)習(xí)」最新綜述!哈工大、中科院出品:全新分類(lèi)體系,十大數(shù)據(jù)集全面實(shí)驗(yàn)
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):14584字
知識(shí)蒸餾在持續(xù)學(xué)習(xí)中的應(yīng)用綜述
本文總結(jié)了哈爾濱工業(yè)大學(xué)和中科院自動(dòng)化所研究人員發(fā)表在IEEE Transactions on Neural Networks and Learning Systems (TNNLS)上的一篇綜述論文,該論文系統(tǒng)地探討了知識(shí)蒸餾技術(shù)在持續(xù)學(xué)習(xí)中緩解災(zāi)難性遺忘問(wèn)題的應(yīng)用。
1. 持續(xù)學(xué)習(xí)與災(zāi)難性遺忘:持續(xù)學(xué)習(xí)旨在使模型能夠連續(xù)學(xué)習(xí)新任務(wù),而不會(huì)忘記之前學(xué)到的知識(shí)。然而,神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)災(zāi)難性遺忘,即在學(xué)習(xí)新任務(wù)時(shí),對(duì)舊任務(wù)的性能急劇下降。知識(shí)蒸餾(KD)作為一種有效的緩解方法,通過(guò)讓新模型模仿舊模型的輸出,從而保留舊任務(wù)的知識(shí)。
2. 知識(shí)蒸餾在持續(xù)學(xué)習(xí)中的分類(lèi):論文提出了一種新的分類(lèi)方法,將基于知識(shí)蒸餾的持續(xù)學(xué)習(xí)方法分為三大范式:
正則化的知識(shí)蒸餾:直接將知識(shí)蒸餾作為正則化項(xiàng),約束模型參數(shù)變化,以保持舊任務(wù)的知識(shí)。這種方法簡(jiǎn)單直接,但效果通常較弱。
知識(shí)蒸餾與數(shù)據(jù)回放結(jié)合:將知識(shí)蒸餾與數(shù)據(jù)回放技術(shù)相結(jié)合,從數(shù)據(jù)和模型兩個(gè)方面增強(qiáng)記憶保持能力。數(shù)據(jù)回放通過(guò)存儲(chǔ)和重放舊任務(wù)數(shù)據(jù)來(lái)減輕遺忘。該范式表現(xiàn)較好,但可能存在數(shù)據(jù)不平衡導(dǎo)致的分類(lèi)偏差問(wèn)題。
知識(shí)蒸餾與特征回放結(jié)合:無(wú)需存儲(chǔ)原始數(shù)據(jù),通過(guò)回放特征信息來(lái)保留模型的記憶能力。該范式具有內(nèi)存效率高,且能緩解分類(lèi)偏差的優(yōu)點(diǎn)。
3. 知識(shí)來(lái)源與蒸餾損失:論文根據(jù)知識(shí)來(lái)源將KD方法分為三個(gè)層次:logits級(jí)別、特征級(jí)別和數(shù)據(jù)級(jí)別。logits級(jí)別蒸餾模仿舊模型的輸出概率或logit值;特征級(jí)別蒸餾模仿中間層的特征表示;數(shù)據(jù)級(jí)別蒸餾則通過(guò)生成模型或其他方式對(duì)齊數(shù)據(jù)分布。不同的知識(shí)來(lái)源和蒸餾損失函數(shù)(如交叉熵、KL散度、L1/L2距離、余弦相似度)對(duì)最終效果有顯著影響。
4. 實(shí)驗(yàn)結(jié)果與分析:論文在CIFAR-100、TinyImageNet和ImageNet-100數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),驗(yàn)證了知識(shí)蒸餾在減輕遺忘方面的有效性。實(shí)驗(yàn)結(jié)果表明,“知識(shí)蒸餾與數(shù)據(jù)回放結(jié)合”范式的方法通常表現(xiàn)最佳,但分類(lèi)偏差可能會(huì)削弱知識(shí)蒸餾的效果。使用separated softmax損失函數(shù)可以有效緩解這個(gè)問(wèn)題。
5. 未來(lái)展望:論文展望了基于知識(shí)蒸餾的持續(xù)學(xué)習(xí)的未來(lái)研究方向,包括:
高質(zhì)量知識(shí)的知識(shí)蒸餾:如何提取和傳遞更高質(zhì)量的知識(shí),是提升持續(xù)學(xué)習(xí)效果的關(guān)鍵。
針對(duì)特定任務(wù)的知識(shí)蒸餾:需要針對(duì)不同任務(wù)(如目標(biāo)檢測(cè)、語(yǔ)義分割等)進(jìn)行定制化設(shè)計(jì)。
更好的教師模型:利用預(yù)訓(xùn)練模型(PTM)和大型語(yǔ)言模型(LLM)作為教師模型,可以更有效地指導(dǎo)學(xué)生模型學(xué)習(xí)。
總而言之,該綜述論文系統(tǒng)地總結(jié)了知識(shí)蒸餾在持續(xù)學(xué)習(xí)中的應(yīng)用,為該領(lǐng)域的研究提供了寶貴的參考,并指出了未來(lái)研究的方向。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。