時隔6年，谷歌BERT終于有替代品了！更快更準更長，還不炒作GenAI

真正有用的主力模型。

原標題：時隔6年，谷歌BERT終于有替代品了！更快更準更長，還不炒作GenAI
文章來源：機器之心
內容字數：9380字

ModernBERT：BERT的六年后繼任者，高效且強大的編碼器模型

本文總結了機器之心對ModernBERT的報道，該模型被譽為BERT的六年后繼任者，在速度和準確率方面均有顯著提升，是真正有用的主力模型。

1. ModernBERT的優勢與意義

ModernBERT由Answer.AI、英偉達等發布，包含139M和395M兩個版本。它在速度和準確率上超越了BERT及其同類模型，上下文長度增加到8k個token，是首個在大量代碼數據上訓練的僅編碼器模型。不同于近期流行的僅解碼器生成式AI模型，ModernBERT專注于檢索、分類等實用任務，更快速、準確、高效，且成本更低。

2. 僅編碼器模型的價值

盡管生成式AI（GenAI）模型如GPT系列風靡一時，但僅編碼器模型在許多實際應用中仍然扮演著關鍵角色。它們輸出數值列表（嵌入向量），直接編碼答案，效率高且易于部署，尤其在內容推薦等領域應用廣泛。與僅解碼器模型相比，僅編碼器模型能雙向查看token，在特定任務中效率更高。

3. ModernBERT的性能提升

ModernBERT在GLUE等基準測試中超越了DeBERTaV3等領先模型，速度提升高達4倍，尤其在長上下文推理方面優勢明顯。在代碼檢索任務中，ModernBERT的性能更是獨樹一幟，得益于其在大量代碼數據上的訓練。

4. ModernBERT的技術創新

ModernBERT的改進源于多個方面：

現代化的Transformer架構：采用RoPE位置編碼、GeGLU激活函數等改進，提升模型效率。
全局和局部注意力機制：結合全局和局部注意力，高效處理長輸入序列。
Unpadding和序列Packing：避免填充token帶來的計算浪費，進一步提升效率。
多樣化的訓練數據：包含網頁文檔、代碼和科學文章等多種數據來源，提升模型泛化能力。
三段式訓練流程：分階段訓練，兼顧短長上下文處理能力。
權重初始化技巧：利用ModernBERT-base的權重初始化ModernBERT-large，加快訓練速度。

5. 結論

ModernBERT作為一款高效、強大的僅編碼器模型，為BERT提供了急需的升級，證明了僅編碼器模型在現代方法的改進下仍能保持強大的性能，并具有極具吸引力的尺寸/性能比。它為需要高效、可靠且低成本的模型的應用提供了理想選擇。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # BERT替代品 # 更快更準的語言模型 # 長文本處理AI模型 # 非生成式AI模型 # 高效AI語言處理

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

時隔6年，谷歌BERT終于有替代品了！更快更準更長，還不炒作GenAI

真正有用的主力模型。

ModernBERT：BERT的六年后繼任者，高效且強大的編碼器模型

1. ModernBERT的優勢與意義

2. 僅編碼器模型的價值

3. ModernBERT的性能提升

4. ModernBERT的技術創新

5. 結論

聯系作者

參數減少99.5%，媲美全精度FLUX！字節跳動等發布首個1.58-bit FLUX量化模型

奧特曼驚呼奇點臨近！95%人類飯碗將被AI搶走，2028年百萬AI上崗

相關文章

暫無評論

ChatGPT

玩虛擬模特？