少樣本輕量化：多個(gè)小模型互學(xué)習(xí)會比大模型好么？

AIGC動態(tài)2年前 (2024)發(fā)布 AI前線

AIGC動態(tài)歡迎閱讀

原標(biāo)題：少樣本輕量化：多個(gè)小模型互學(xué)習(xí)會比大模型好么？
關(guān)鍵字：模型,視圖,學(xué)生,數(shù)據(jù),框架
文章來源：AI前線
內(nèi)容字?jǐn)?shù)：9558字

內(nèi)容摘要：

來源 | ACTBIGDATA
作者 |毛乾任、蔣為峰等背景
大型預(yù)訓(xùn)練語言模型（PLM），如 BERT、GPT-3，在自然語言處理應(yīng)用的發(fā)展中扮演著至關(guān)重要的角色。為了將這些 PLM 應(yīng)用于廣泛的下游任務(wù)中，我們需要對其進(jìn)行微調(diào)，以便將預(yù)訓(xùn)練階段的知識泛化到具體的任務(wù)中去。然而，盡管預(yù)訓(xùn)練和下游任務(wù)微調(diào)的范式為自然語言處理任務(wù)帶來了顯著的進(jìn)步，在現(xiàn)實(shí)應(yīng)用中，我們?nèi)詴鎸σ恍┵Y源上的限制，這就需要低資源技術(shù)的參與。例如，半監(jiān)督學(xué)習(xí)解決了標(biāo)注樣本有限的挑戰(zhàn)，而知識蒸餾（KD）則幫助緩解計(jì)算資源上的限制。
本文討論了一種滿足這兩種低資源場景的技術(shù)策略，能夠同時(shí)應(yīng)對標(biāo)注樣本有限和計(jì)算資源受限設(shè)備的挑戰(zhàn)。然而，直接將半監(jiān)督學(xué)習(xí)與知識蒸餾結(jié)合起來存在挑戰(zhàn)。首先，較淺的網(wǎng)絡(luò)通常具有有限的模型容量，從而使得其相比于大型 PLM 更難優(yōu)化。此外，有限的標(biāo)注數(shù)據(jù) 進(jìn)一步限制了小模型有效優(yōu)化的能力。
為了應(yīng)對這些挑戰(zhàn)，我們提出了半監(jiān)督協(xié)同訓(xùn)練框架 DisCo（Distilled Student Models Co-training for Semi-supervised Text Mining）。該框架

原文鏈接：少樣本輕量化：多個(gè)小模型互學(xué)習(xí)會比大模型好么？

聯(lián)系作者

文章來源：AI前線
作者微信：ai-front
作者簡介：面向AI愛好者、開發(fā)者和科學(xué)家，提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實(shí)踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開課，助力你全面擁抱人工智能技術(shù)。

閱讀原文