「知識(shí)蒸餾+持續(xù)學(xué)習(xí)」最新綜述！哈工大、中科院出品：全新分類(lèi)體系，十大數(shù)據(jù)集全面實(shí)驗(yàn)

AIGC動(dòng)態(tài)4個(gè)月前發(fā)布新智元

374 0 0

原標(biāo)題：「知識(shí)蒸餾+持續(xù)學(xué)習(xí)」最新綜述！哈工大、中科院出品：全新分類(lèi)體系，十大數(shù)據(jù)集全面實(shí)驗(yàn)
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：14584字

知識(shí)蒸餾在持續(xù)學(xué)習(xí)中的應(yīng)用綜述

本文總結(jié)了哈爾濱工業(yè)大學(xué)和中科院自動(dòng)化所研究人員發(fā)表在IEEE Transactions on Neural Networks and Learning Systems (TNNLS)上的一篇綜述論文，該論文系統(tǒng)地探討了知識(shí)蒸餾技術(shù)在持續(xù)學(xué)習(xí)中緩解災(zāi)難性遺忘問(wèn)題的應(yīng)用。

1. 持續(xù)學(xué)習(xí)與災(zāi)難性遺忘：持續(xù)學(xué)習(xí)旨在使模型能夠連續(xù)學(xué)習(xí)新任務(wù)，而不會(huì)忘記之前學(xué)到的知識(shí)。然而，神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)災(zāi)難性遺忘，即在學(xué)習(xí)新任務(wù)時(shí)，對(duì)舊任務(wù)的性能急劇下降。知識(shí)蒸餾（KD）作為一種有效的緩解方法，通過(guò)讓新模型模仿舊模型的輸出，從而保留舊任務(wù)的知識(shí)。

2. 知識(shí)蒸餾在持續(xù)學(xué)習(xí)中的分類(lèi)：論文提出了一種新的分類(lèi)方法，將基于知識(shí)蒸餾的持續(xù)學(xué)習(xí)方法分為三大范式：

正則化的知識(shí)蒸餾：直接將知識(shí)蒸餾作為正則化項(xiàng)，約束模型參數(shù)變化，以保持舊任務(wù)的知識(shí)。這種方法簡(jiǎn)單直接，但效果通常較弱。
知識(shí)蒸餾與數(shù)據(jù)回放結(jié)合：將知識(shí)蒸餾與數(shù)據(jù)回放技術(shù)相結(jié)合，從數(shù)據(jù)和模型兩個(gè)方面增強(qiáng)記憶保持能力。數(shù)據(jù)回放通過(guò)存儲(chǔ)和重放舊任務(wù)數(shù)據(jù)來(lái)減輕遺忘。該范式表現(xiàn)較好，但可能存在數(shù)據(jù)不平衡導(dǎo)致的分類(lèi)偏差問(wèn)題。
知識(shí)蒸餾與特征回放結(jié)合：無(wú)需存儲(chǔ)原始數(shù)據(jù)，通過(guò)回放特征信息來(lái)保留模型的記憶能力。該范式具有內(nèi)存效率高，且能緩解分類(lèi)偏差的優(yōu)點(diǎn)。

3. 知識(shí)來(lái)源與蒸餾損失：論文根據(jù)知識(shí)來(lái)源將KD方法分為三個(gè)層次：logits級(jí)別、特征級(jí)別和數(shù)據(jù)級(jí)別。logits級(jí)別蒸餾模仿舊模型的輸出概率或logit值；特征級(jí)別蒸餾模仿中間層的特征表示；數(shù)據(jù)級(jí)別蒸餾則通過(guò)生成模型或其他方式對(duì)齊數(shù)據(jù)分布。不同的知識(shí)來(lái)源和蒸餾損失函數(shù)（如交叉熵、KL散度、L1/L2距離、余弦相似度）對(duì)最終效果有顯著影響。

4. 實(shí)驗(yàn)結(jié)果與分析：論文在CIFAR-100、TinyImageNet和ImageNet-100數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)，驗(yàn)證了知識(shí)蒸餾在減輕遺忘方面的有效性。實(shí)驗(yàn)結(jié)果表明，“知識(shí)蒸餾與數(shù)據(jù)回放結(jié)合”范式的方法通常表現(xiàn)最佳，但分類(lèi)偏差可能會(huì)削弱知識(shí)蒸餾的效果。使用separated softmax損失函數(shù)可以有效緩解這個(gè)問(wèn)題。

5. 未來(lái)展望：論文展望了基于知識(shí)蒸餾的持續(xù)學(xué)習(xí)的未來(lái)研究方向，包括：

高質(zhì)量知識(shí)的知識(shí)蒸餾：如何提取和傳遞更高質(zhì)量的知識(shí)，是提升持續(xù)學(xué)習(xí)效果的關(guān)鍵。
針對(duì)特定任務(wù)的知識(shí)蒸餾：需要針對(duì)不同任務(wù)（如目標(biāo)檢測(cè)、語(yǔ)義分割等）進(jìn)行定制化設(shè)計(jì)。
更好的教師模型：利用預(yù)訓(xùn)練模型（PTM）和大型語(yǔ)言模型（LLM）作為教師模型，可以更有效地指導(dǎo)學(xué)生模型學(xué)習(xí)。

總而言之，該綜述論文系統(tǒng)地總結(jié)了知識(shí)蒸餾在持續(xù)學(xué)習(xí)中的應(yīng)用，為該領(lǐng)域的研究提供了寶貴的參考，并指出了未來(lái)研究的方向。

聯(lián)系作者

文章來(lái)源：新智元
作者微信：
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文