MeteoRA

MeteoRA – 南大推出高效可擴展的多任務嵌入框架

MeteoRA是學計算機科學與技術系研究團隊開發的一種多任務嵌入框架，專為大型語言模型（LLM）設計。它成功將多種任務特定的LoRA（低秩適配器）集成于單一基礎模型中，實現了高效的參數復用和無縫的任務切換。

MeteoRA是什么

MeteoRA是學計算機科學與技術系研究團隊推出的多任務嵌入框架，旨在優化大型語言模型（LLM）的性能。該框架將多個任務特定的LoRA（低秩適配器）整合到一個基礎模型中，促進了高效的參數復用及自主任務切換。MeteoRA基于混合專家（MoE）架構，利用可訓練的門控網絡動態選擇最適合當前輸入的LoRA適配器，無需外部任務指令。此外，MeteoRA提出了一種MoE前向加速策略，通過自定義的GPU算子顯著提升推理效率，同時保持低內存占用。在各類實驗中，MeteoRA在多項任務上表現出了與傳統微調方法相媲美的性能，尤其在復合任務處理方面表現優異，能夠在一次推理中解決多個子問題。

MeteoRA

MeteoRA的主要功能

多任務適配器集成：將多種任務專用的LoRA（低秩適配器）嵌入到一個基礎LLM中，能夠同時處理多樣化任務。
自主任務選擇與切換：無需人工輸入任務意圖，實現自動任務切換。
高效推理：提升多任務適配器的推理效率，同時保持低內存需求。
復合任務處理：在一次推理中解決多個子任務，例如連續回答不同領域的問題，增強模型的靈活性與實用性。
擴展性：支持多種LoRA適配器的集成，適應不同任務和領域，拓展LLM的應用范圍。

MeteoRA的技術原理

LoRA（Low-Rank Adaptation）：一種高效的微調方法，通過在LLM的線性層中注入低秩矩陣（A和B）進行調整，僅更新適應特定任務的矩陣，而不改變基礎模型的其他參數。每個LoRA適配器由一對低秩矩陣組成，用于調節模型的輸出。
混合專家（MoE）架構：基于MoE架構，將不同的LoRA適配器視為各自的“專家”，由可訓練的門控網絡動態選擇最適合當前輸入的專家（LoRA適配器）。門控網絡根據輸入的隱藏狀態計算每個LoRA的權重，選擇權重最高的幾個適配器進行前向傳播。
動態門控機制：門控網絡為每個輸入動態分配權重，以決定哪些LoRA適配器參與計算。支持根據top-k選擇策略選擇多個適配器，實現任務的靈活切換與組合。
前向加速策略：基于PyTorch和Triton推出的自定義GPU算子，通過并行化和優化內存訪問，顯著提升多任務推理的速度，同時保持低內存占用。
全模式集成：將LoRA適配器嵌入Transformer架構的所有線性層（包括注意力模塊和MLP模塊），更全面地利用不同任務所蘊含的知識。