微軟最新研究成果:使用GPT-4合成數(shù)據(jù)來(lái)訓(xùn)練AI模型,實(shí)現(xiàn)SOTA!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微軟最新研究成果:使用GPT-4合成數(shù)據(jù)來(lái)訓(xùn)練AI模型,實(shí)現(xiàn)SOTA!
關(guān)鍵字:模型,數(shù)據(jù),報(bào)告,任務(wù),文本
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):5852字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年、王二狗文本嵌入是各項(xiàng)NLP任務(wù)的基礎(chǔ),用于將自然語(yǔ)言轉(zhuǎn)換為向量表示。現(xiàn)有的大部分方法通常采用復(fù)雜的多階段訓(xùn)練流程,先在大規(guī)模數(shù)據(jù)上訓(xùn)練,再在小規(guī)模標(biāo)注數(shù)據(jù)上微調(diào)。此過(guò)程依賴于手動(dòng)收集數(shù)據(jù)制作正負(fù)樣本對(duì),缺乏任務(wù)的多樣性和語(yǔ)言多樣性。
此外,大部分方法采用BERT作為編碼器,如非常經(jīng)典的Sentence-BERT和SimCSE通過(guò)在推理數(shù)據(jù)集上對(duì)BERT進(jìn)行微調(diào)學(xué)習(xí)文本嵌入。
但現(xiàn)在LLMs技術(shù)發(fā)展得如火如荼,能否用LLMs來(lái)克服現(xiàn)有方法的限制,升級(jí)文本嵌入方法呢?
當(dāng)然可以!
最近,微軟發(fā)布了一種新穎的文本嵌入方法,使用專有的LLMs為93種語(yǔ)言中各種文本嵌入任務(wù)生成合成數(shù)據(jù),并且涉及了多個(gè)任務(wù)場(chǎng)景。
微軟使用了Mistral-7B對(duì)合成數(shù)據(jù)和標(biāo)記數(shù)據(jù)進(jìn)行混合訓(xùn)練,**成功登頂Huggingface排行榜,比之前的方法高2%**。
論文標(biāo)題:Improving Text Embeddings with Large Language Models
論文鏈接:https://arxiv.org/pdf/2401.00368.pdf
模型:https://
原文鏈接:微軟最新研究成果:使用GPT-4合成數(shù)據(jù)來(lái)訓(xùn)練AI模型,實(shí)現(xiàn)SOTA!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬(wàn)AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。