抱抱臉CEO:愛了!!
原標題:時隔6年BERT升級!僅編碼器架構沒被,更快更準確更長上下文
文章來源:量子位
內容字數:4640字
ModernBERT:BERT的現代復興
時隔六年,一度被認為瀕死的BERT模型迎來了它的現代化版本——ModernBERT。這款由Answer.AI和LightOn團隊開發的模型,在速度、精度和上下文長度方面都實現了顯著提升,并在多個基準測試中取得了SOTA成績,其開源發布也引發了廣泛關注。
ModernBERT的優勢
- 速度與效率:ModernBERT的速度是DeBERTa的兩倍,在更常見的輸入長度混合情況下,速度可達四倍;長上下文推理速度提升約三倍,同時內存占用不到DeBERTa的五分之一。
- 精度與性能:在信息檢索(RAG)、分類、實體抽取等任務中取得了SOTA性能。
- 更長的上下文:支持8192個token的上下文長度,是傳統BERT的16倍。
- encoder-only架構:能夠同時考慮前后文信息,克服了decoder-only模型只能“向后看”的限制。
作者Jeremy Howard認為,當前生成式模型的熱潮掩蓋了encoder-only模型的價值。大型生成式模型(如GPT-4)存在成本高、速度慢、私有化等問題,并不適用于所有任務。而ModernBERT憑借其高效性和強大的性能,為許多實際應用提供了更優的選擇。
ModernBERT的現代化升級
ModernBERT的“現代”體現在三個方面:現代化的Transformer架構、現代數據規模與來源,以及高效的訓練策略。
- 現代化的Transformer架構:ModernBERT采用了改進后的Transformer++架構(受Llama2啟發),主要改進包括:使用旋轉位置嵌入(RoPE)、GeGLU層替換MLP層、移除不必要的偏置項、在嵌入層后添加歸一化層,以及利用Flash Attention 2優化計算效率。
- 現代數據規模與來源:ModernBERT的訓練數據規模達2萬億token,涵蓋網絡文檔、編程代碼和科學文章等多種來源,并避免了以往模型中數據重復的問題。
- 高效的訓練策略:ModernBERT采用三階段訓練,包括基礎訓練、長上下文適應和退火處理。同時,團隊還使用了學習率調整、batch-size warmup以及基于ModernBERT-base模型權重的“平鋪”擴展等技術來加速訓練。
團隊與未來展望
ModernBERT由Answer.AI和LightOn團隊開發,核心成員包括Benjamin Warner、Antoine Chaffin和Benjamin ClaviéOn。團隊表示,將公開模型權重,支持后續研究,并計劃明年訓練更大版本的ModernBERT。
總而言之,ModernBERT的出現為encoder-only模型注入了新的活力,證明了其在特定任務中的競爭力,也為未來AI模型的發展提供了新的方向。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...