無需人工標注!LLM加持文本嵌入學習:輕松支持100種語言,適配數(shù)十萬下游任務
AIGC動態(tài)歡迎閱讀
原標題:無需人工標注!LLM加持文本嵌入學習:輕松支持100種語言,適配數(shù)十萬下游任務
關鍵字:數(shù)據(jù),研究人員,任務,報告,文本
文章來源:新智元
內容字數(shù):10910字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】使用LLM生成海量任務的文本數(shù)據(jù),無需人工標注即可大幅提升文本嵌入的適用度,只需1000訓練步即可輕松擴展到100種語言。文本嵌入(word embedding)是自然語言處理(NLP)領域發(fā)展的基礎,可以將文本映射到語義空間中,并轉換為稠密的矢量,已經(jīng)被廣泛應用于各種自然語言處理(NLP)任務中,如信息檢索(IR)、問答、文本相似度計算、推薦系統(tǒng)等等,
比如在IR領域,第一階段的檢索往往依賴于文本嵌入來進行相似度計算,先在大規(guī)模語料庫中召回一個小的候選文件集,再進行細粒度的計算;基于嵌入的檢索也是檢索增強生成(RAG)的關鍵組成部分,使大型語言模型(LLM)可以訪問動態(tài)的外部知識,而無需修改模型參數(shù)。
早期的文本嵌入學習方法如word2vec,GloVe等大多是靜態(tài)的,無法捕捉自然語言中豐富的上下文信息;隨著預訓練語言模型的出現(xiàn),Sentence-BERT和SimCSE等方法在自然語言推理(NLI)數(shù)據(jù)集上通過微調BERT來學習文本嵌入。
為了進一步增強文本嵌入的性能和魯棒性,最先進的方法如E5和BGE采用了更復雜的多階段訓練范式,先對數(shù)十億個
原文鏈接:無需人工標注!LLM加持文本嵌入學習:輕松支持100種語言,適配數(shù)十萬下游任務
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。