超越OpenAI,谷歌重磅發(fā)布從大模型蒸餾的編碼器Gecko
AIGC動態(tài)歡迎閱讀
原標(biāo)題:超越OpenAI,谷歌重磅發(fā)布從大模型蒸餾的編碼器Gecko
關(guān)鍵字:模型,任務(wù),數(shù)據(jù),段落,文本
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):6157字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | Tscom
引言:介紹文本嵌入模型的重要性和挑戰(zhàn)文本嵌入模型在自然語言處理(NLP)領(lǐng)域扮演著至關(guān)重要的角色。它們將文本轉(zhuǎn)換為密集的向量表示,使得語義相似的文本在嵌入空間中彼此靠近。這些嵌入被廣泛應(yīng)用于各種下游任務(wù),包括文檔檢索、句子相似度、分類和聚類。然而,創(chuàng)建一個既通用又高效的文本嵌入模型面臨著巨大挑戰(zhàn)。這些模型需要大量的訓(xùn)練數(shù)據(jù)來全面覆蓋所需的領(lǐng)域和技能,而且,手動標(biāo)注數(shù)據(jù)的過程既耗時又昂貴,通常還會帶來不希望的偏見和缺乏多樣性。近年來,大語言模型(LLMs)因其在各種領(lǐng)域的廣泛知識和卓越的少樣本學(xué)習(xí)能力而成為了一種強(qiáng)大的替代方案。
本文介紹了Gecko,一個高效且多功能的文本嵌入模型。如下圖,Gecko通過從LLMs中提取知識并將其蒸餾到檢索器中,從而實(shí)現(xiàn)了強(qiáng)大的檢索性能。我們的兩步蒸餾過程首先使用LLM生成多樣化的合成配對數(shù)據(jù)。接下來,我們通過檢索每個查詢的候選段落集,并使用相同的LLM重新標(biāo)記正面和非常負(fù)面的段落,進(jìn)一步提煉數(shù)據(jù)質(zhì)量。Gecko模型在Massive Text Embedding Benchmark(MTEB)上的緊湊性表現(xiàn)出色,2
原文鏈接:超越OpenAI,谷歌重磅發(fā)布從大模型蒸餾的編碼器Gecko
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189