真正有用的主力模型。
原標題:時隔6年,谷歌BERT終于有替代品了!更快更準更長,還不炒作GenAI
文章來源:機器之心
內容字數:9380字
ModernBERT:BERT的六年后繼任者,高效且強大的編碼器模型
本文總結了機器之心對ModernBERT的報道,該模型被譽為BERT的六年后繼任者,在速度和準確率方面均有顯著提升,是真正有用的主力模型。
1. ModernBERT的優勢與意義
ModernBERT由Answer.AI、英偉達等發布,包含139M和395M兩個版本。它在速度和準確率上超越了BERT及其同類模型,上下文長度增加到8k個token,是首個在大量代碼數據上訓練的僅編碼器模型。不同于近期流行的僅解碼器生成式AI模型,ModernBERT專注于檢索、分類等實用任務,更快速、準確、高效,且成本更低。
2. 僅編碼器模型的價值
盡管生成式AI(GenAI)模型如GPT系列風靡一時,但僅編碼器模型在許多實際應用中仍然扮演著關鍵角色。它們輸出數值列表(嵌入向量),直接編碼答案,效率高且易于部署,尤其在內容推薦等領域應用廣泛。與僅解碼器模型相比,僅編碼器模型能雙向查看token,在特定任務中效率更高。
3. ModernBERT的性能提升
ModernBERT在GLUE等基準測試中超越了DeBERTaV3等領先模型,速度提升高達4倍,尤其在長上下文推理方面優勢明顯。在代碼檢索任務中,ModernBERT的性能更是獨樹一幟,得益于其在大量代碼數據上的訓練。
4. ModernBERT的技術創新
ModernBERT的改進源于多個方面:
- 現代化的Transformer架構:采用RoPE位置編碼、GeGLU激活函數等改進,提升模型效率。
- 全局和局部注意力機制:結合全局和局部注意力,高效處理長輸入序列。
- Unpadding和序列Packing:避免填充token帶來的計算浪費,進一步提升效率。
- 多樣化的訓練數據:包含網頁文檔、代碼和科學文章等多種數據來源,提升模型泛化能力。
- 三段式訓練流程:分階段訓練,兼顧短長上下文處理能力。
- 權重初始化技巧:利用ModernBERT-base的權重初始化ModernBERT-large,加快訓練速度。
5. 結論
ModernBERT作為一款高效、強大的僅編碼器模型,為BERT提供了急需的升級,證明了僅編碼器模型在現代方法的改進下仍能保持強大的性能,并具有極具吸引力的尺寸/性能比。它為需要高效、可靠且低成本的模型的應用提供了理想選擇。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...