少樣本輕量化:多個小模型互學(xué)習(xí)會比大模型好么?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:少樣本輕量化:多個小模型互學(xué)習(xí)會比大模型好么?
關(guān)鍵字:模型,視圖,學(xué)生,數(shù)據(jù),框架
文章來源:AI前線
內(nèi)容字?jǐn)?shù):9558字
內(nèi)容摘要:
來源 | ACTBIGDATA
作者 |毛乾任、蔣為峰等背景
大型預(yù)訓(xùn)練語言模型(PLM),如 BERT、GPT-3,在自然語言處理應(yīng)用的發(fā)展中扮演著至關(guān)重要的角色。為了將這些 PLM 應(yīng)用于廣泛的下游任務(wù)中,我們需要對其進(jìn)行微調(diào),以便將預(yù)訓(xùn)練階段的知識泛化到具體的任務(wù)中去。然而,盡管預(yù)訓(xùn)練和下游任務(wù)微調(diào)的范式為自然語言處理任務(wù)帶來了顯著的進(jìn)步,在現(xiàn)實應(yīng)用中,我們?nèi)詴鎸σ恍┵Y源上的限制,這就需要低資源技術(shù)的參與。例如,半監(jiān)督學(xué)習(xí)解決了標(biāo)注樣本有限的挑戰(zhàn),而知識蒸餾(KD)則幫助緩解計算資源上的限制。
本文討論了一種滿足這兩種低資源場景的技術(shù)策略,能夠同時應(yīng)對標(biāo)注樣本有限和計算資源受限設(shè)備的挑戰(zhàn)。然而,直接將半監(jiān)督學(xué)習(xí)與知識蒸餾結(jié)合起來存在挑戰(zhàn)。首先,較淺的網(wǎng)絡(luò)通常具有 有限的模型容量,從而使得其相比于大型 PLM 更難優(yōu)化。此外,有限的標(biāo)注數(shù)據(jù) 進(jìn)一步限制了小模型有效優(yōu)化的能力。
為了應(yīng)對這些挑戰(zhàn),我們提出了半監(jiān)督協(xié)同訓(xùn)練框架 DisCo(Distilled Student Models Co-training for Semi-supervised Text Mining)。該框架
原文鏈接:少樣本輕量化:多個小模型互學(xué)習(xí)會比大模型好么?
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開課,助力你全面擁抱人工智能技術(shù)。