微軟最新研究成果：使用GPT-4合成數(shù)據(jù)來(lái)訓(xùn)練AI模型，實(shí)現(xiàn)SOTA！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說(shuō)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：微軟最新研究成果：使用GPT-4合成數(shù)據(jù)來(lái)訓(xùn)練AI模型，實(shí)現(xiàn)SOTA！
關(guān)鍵字：模型,數(shù)據(jù),報(bào)告,任務(wù),文本
文章來(lái)源：夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù)：5852字

內(nèi)容摘要：

夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年、王二狗文本嵌入是各項(xiàng)NLP任務(wù)的基礎(chǔ)，用于將自然語(yǔ)言轉(zhuǎn)換為向量表示。現(xiàn)有的大部分方法通常采用復(fù)雜的多階段訓(xùn)練流程，先在大規(guī)模數(shù)據(jù)上訓(xùn)練，再在小規(guī)模標(biāo)注數(shù)據(jù)上微調(diào)。此過(guò)程依賴于手動(dòng)收集數(shù)據(jù)制作正負(fù)樣本對(duì)，缺乏任務(wù)的多樣性和語(yǔ)言多樣性。
此外，大部分方法采用BERT作為編碼器，如非常經(jīng)典的Sentence-BERT和SimCSE通過(guò)在推理數(shù)據(jù)集上對(duì)BERT進(jìn)行微調(diào)學(xué)習(xí)文本嵌入。
但現(xiàn)在LLMs技術(shù)發(fā)展得如火如荼，能否用LLMs來(lái)克服現(xiàn)有方法的限制，升級(jí)文本嵌入方法呢？
當(dāng)然可以！
最近，微軟發(fā)布了一種新穎的文本嵌入方法，使用專有的LLMs為93種語(yǔ)言中各種文本嵌入任務(wù)生成合成數(shù)據(jù)，并且涉及了多個(gè)任務(wù)場(chǎng)景。
微軟使用了Mistral-7B對(duì)合成數(shù)據(jù)和標(biāo)記數(shù)據(jù)進(jìn)行混合訓(xùn)練，**成功登頂Huggingface排行榜，比之前的方法高2%**。
論文標(biāo)題:Improving Text Embeddings with Large Language Models
論文鏈接:https://arxiv.org/pdf/2401.00368.pdf
模型:https://

聯(lián)系作者

文章來(lái)源：夕小瑤科技說(shuō)
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：更快的AI前沿，更深的行業(yè)洞見。聚集25萬(wàn)AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠，兼?zhèn)涿襟wsense與技術(shù)深度。

閱讀原文