華科重磅發布MoE Jetpack框架：助力收斂速度提升8倍，準確率飛躍超30%！

原標題：收斂速度最高8倍，準確率提升超30%！華科發布MoE Jetpack框架 | NeurIPS 2024
文章來源：新智元
內容字數：5563字

華中科技大學的研究人員提出了一種新穎的框架——MoE Jetpack，旨在通過Checkpoint Recycling方法和SpheroMoE結構，將密集激活模型的預訓練權重高效微調為混合專家（MoE）模型。這一方法顯著提升了MoE模型在下游任務中的精度和收斂速度，減少了對預訓練過程的依賴。

混合專家模型（MoE）通過動態激活網絡的一部分結構，提高計算效率，能夠在保持相對穩定的計算成本下大幅增加參數量，從而有效提升模型性能。然而，MoE模型通常需要在大型數據集上進行預訓練，導致時間和資源的消耗極高，限制了其普及性。

MoE Jetpack的核心創新包括兩個主要部分：

(1) Checkpoint Recycling：通過采樣密集模型權重生成多樣化的專家，作為MoE模型的初始化權重，從而加速模型的收斂和提升性能，避免了大規模預訓練的需求。

(2) SpheroMoE層：通過交叉注意力機制優化專家分配，利用超球空間的投影提高微調過程的穩定性，并通過專家正則化方法減輕過擬合。

研究中采用了Checkpoint Recycling技術，通過四種主要的權重回收策略來初始化MoE模型。實驗結果顯示，在ImageNet-1K上，MoE Jetpack的收斂速度提高了2倍，準確率提升達2.8%；在小規模數據集上，收斂速度提升可達8倍，準確率提升超過30%。

MoE Jetpack框架通過有效利用預訓練密集模型的權重，不僅降低了MoE模型的訓練成本和資源需求，還提高了模型在下游任務中的性能。該框架為混合專家模型的研究與應用提供了新的可能，為研究者在普通計算資源下使用MoE模型提供了有力支持。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...