Seed1.5-Embedding – 字節跳動 Seed 團隊推出的向量模型

Seed1.5-Embedding是字節跳動Seed團隊最新推出的向量模型,基于Seed1.5 (Doubao-1.5-pro)進行深度訓練。該模型在權威評測榜單MTEB上實現了中英文的最先進(SOTA)效果,并在推理密集型檢索任務的BRIGHT榜單中表現出色。
Seed1.5-Embedding是什么
Seed1.5-Embedding是字節跳動Seed團隊全新發布的向量模型,經過對Seed1.5 (Doubao-1.5-pro)的進一步訓練。該模型在MTEB這一權威評測榜單上取得了中英文的SOTA效果,并在BRIGHT榜單的推理密集型檢索任務中也展現了優異的成績。它采用了Siamese雙塔結構,依托Seed1.5預訓練LLM,通過兩階段的訓練流程增強了模型的通用表征能力。第一階段使用無監督數據進行預微調,通過對比學習將生成模型轉化為編碼模型;第二階段則結合有監督和合成數據進行微調,進行多任務優化。通過迭代式難負例挖掘、偽負例過濾和合成數據等策略優化數據質量,顯著提升了模型在檢索任務中的表現。此外,Seed1.5-Embedding支持多種向量維度選擇,包括2048、1024、512和256。
Seed1.5-Embedding的主要功能
- 文本語義編碼:將輸入文本的語義轉化為高維空間中的表征向量,使得相關文本之間的向量相似性更高。這種編碼方式能夠支持檢索、分類、聚類等下游任務,廣泛應用于搜索、推薦和內容理解等領域。
- 檢索任務:通過計算向量相似度,快速從龐大的文檔庫中找到與用戶查詢最相關的信息。該模型在推理密集型檢索任務中表現卓越,能夠理解復雜的查詢與文檔匹配關系。
- 多任務優化:支持多種任務類型,包括分類、聚類、成對分類、重排、檢索和語義文本相似性(STS)任務,適用各種應用場景。
- 靈活的向量維度支持:支持多種向量維度(2048、1024、512、256),用戶可根據具體需求選擇合適的維度,即便在較低維度下,模型性能的下降也微乎其微,從而提供靈活的存儲和運行效率選擇。
- 推理能力優化:通過構造推理密集型檢索數據,優化模型在復雜查詢和文檔匹配中的推理能力,使其能夠處理更復雜的語義關系和邏輯推理任務。
Seed1.5-Embedding的技術原理
- 模型架構:Seed1.5-Embedding采用Siamese雙塔向量模型結構,查詢與文檔的向量通過余弦相似度計算匹配得分。模型依托Seed1.5的預訓練LLM,將單向注意力轉變為雙向,構建了小規模的MoE(專家混合)模型,查詢和文檔的模型參數共享,從而確保了較高的運行效率。
- 兩階段訓練流程
- 第一階段:利用無監督數據進行預微調,通過對比學習將單向Attention的生成模型改造為雙向Attention的編碼模型,從而充分建模各種文本匹配模式。
- 第二階段:結合有監督和合成數據進行微調,通過混合多種任務數據進行多任務優化,讓模型學習各個任務的最佳表征模式。
- 數據工程策略
- 負例挖掘:設計迭代式的難負例挖掘策略,根據模型自身的偏好挖掘難負例,以提升模型的細粒度相關性區分能力。
- 偽負例過濾:自動過濾與正例過于相似的文本,以避免偽負例對學習的干擾。
- 合成數據:構造通用場景和推理密集場景的數據,從而提升模型在復雜檢索任務中的表現。
Seed1.5-Embedding的項目地址
- HuggingFace模型庫:https://huggingface.co/ByteDance-Seed/Seed1.5-Embedding
Seed1.5-Embedding的應用場景
- 信息檢索與語義搜索:Seed1.5-Embedding能夠將文檔或網頁向量化,支持語義級別的搜索,顯著提升召回率和精準度。這在問答系統(QA)、企業內部文檔檢索、客戶服務等應用場景中,能夠更準確地理解用戶查詢意圖,快速定位相關文檔。
- 文本聚類與話題識別:利用文本向量,Seed1.5-Embedding可以對大量文檔進行聚類,自動識別出不同的主題和分類信息。
- 推薦系統:在推薦系統中,該模型能夠將用戶評論、產品描述等文本信息向量化,通過計算相似度,實現對相似商品和用戶的檢索。
- 文本分類與情感分析:Seed1.5-Embedding能夠將文本生成向量,再輸入下游分類模型,提升文本分類、情感分析和立場分析等任務的性能。與傳統的TF-IDF特征相比,生成的向量能夠更準確地表達文本的含義和上下文關系。
- 復雜查詢理解與推理:模型在推理密集型檢索任務上表現卓越,能夠深入理解復雜查詢與文檔之間的深層匹配關系。在生物學、地球科學、編程等領域的復雜搜索任務中,Seed1.5-Embedding能夠提供更為精準的檢索結果。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號