時隔6年BERT升級！僅編碼器架構沒被，更快更準確更長上下文

抱抱臉CEO：愛了??！

時隔6年BERT升級！僅編碼器架構沒被殺死，更快更準確更長上下文

原標題：時隔6年BERT升級！僅編碼器架構沒被，更快更準確更長上下文
文章來源：量子位
內容字數：4640字

ModernBERT：BERT的現代復興

時隔六年，一度被認為瀕死的BERT模型迎來了它的現代化版本——ModernBERT。這款由Answer.AI和LightOn團隊開發的模型，在速度、精度和上下文長度方面都實現了顯著提升，并在多個基準測試中取得了SOTA成績，其開源發布也引發了廣泛關注。

ModernBERT的優勢

速度與效率：ModernBERT的速度是DeBERTa的兩倍，在更常見的輸入長度混合情況下，速度可達四倍；長上下文推理速度提升約三倍，同時內存占用不到DeBERTa的五分之一。
精度與性能：在信息檢索（RAG）、分類、實體抽取等任務中取得了SOTA性能。
更長的上下文：支持8192個token的上下文長度，是傳統BERT的16倍。
encoder-only架構：能夠同時考慮前后文信息，克服了decoder-only模型只能“向后看”的限制。

作者Jeremy Howard認為，當前生成式模型的熱潮掩蓋了encoder-only模型的價值。大型生成式模型（如GPT-4）存在成本高、速度慢、私有化等問題，并不適用于所有任務。而ModernBERT憑借其高效性和強大的性能，為許多實際應用提供了更優的選擇。

ModernBERT的現代化升級

ModernBERT的“現代”體現在三個方面：現代化的Transformer架構、現代數據規模與來源，以及高效的訓練策略。

現代化的Transformer架構：ModernBERT采用了改進后的Transformer++架構（受Llama2啟發），主要改進包括：使用旋轉位置嵌入（RoPE）、GeGLU層替換MLP層、移除不必要的偏置項、在嵌入層后添加歸一化層，以及利用Flash Attention 2優化計算效率。
現代數據規模與來源：ModernBERT的訓練數據規模達2萬億token，涵蓋網絡文檔、編程代碼和科學文章等多種來源，并避免了以往模型中數據重復的問題。
高效的訓練策略：ModernBERT采用三階段訓練，包括基礎訓練、長上下文適應和退火處理。同時，團隊還使用了學習率調整、batch-size warmup以及基于ModernBERT-base模型權重的“平鋪”擴展等技術來加速訓練。

團隊與未來展望

ModernBERT由Answer.AI和LightOn團隊開發，核心成員包括Benjamin Warner、Antoine Chaffin和Benjamin ClaviéOn。團隊表示，將公開模型權重，支持后續研究，并計劃明年訓練更大版本的ModernBERT。

總而言之，ModernBERT的出現為encoder-only模型注入了新的活力，證明了其在特定任務中的競爭力，也為未來AI模型的發展提供了新的方向。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 6年技術迭代 # BERT升級 # 大型語言模型優化 # 快速準確編碼 # 長上下文編碼器

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

時隔6年BERT升級！僅編碼器架構沒被，更快更準確更長上下文

抱抱臉CEO：愛了??！

ModernBERT：BERT的現代復興

ModernBERT的優勢

ModernBERT的現代化升級

團隊與未來展望

聯系作者

AI美女圖成了過去式，“巨物寶可夢”才是新的流量密碼。

AI應用時代，模型能力應該如何進化？｜甲子光年

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

時隔6年BERT升級！僅編碼器架構沒被，更快更準確更長上下文

抱抱臉CEO：愛了??！

ModernBERT：BERT的現代復興

ModernBERT的優勢

ModernBERT的現代化升級

團隊與未來展望

聯系作者

AI美女圖成了過去式，“巨物寶可夢”才是新的流量密碼。

AI應用時代，模型能力應該如何進化？｜甲子光年

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

時隔6年BERT升級！僅編碼器架構沒被，更快更準確更長上下文

抱抱臉CEO：愛了??！

AI美女圖成了過去式，“巨物寶可夢”才是新的流量密碼。

AI應用時代，模型能力應該如何進化？｜甲子光年