擊敗OpenAI,權(quán)重、數(shù)據(jù)、代碼全開源,能完美復(fù)現(xiàn)的嵌入模型Nomic Embed來了

AIGC動態(tài)歡迎閱讀
原標題:擊敗OpenAI,權(quán)重、數(shù)據(jù)、代碼全開源,能完美復(fù)現(xiàn)的嵌入模型Nomic Embed來了
關(guān)鍵字:模型,基準,上下文,序列,長度
文章來源:機器之心
內(nèi)容字數(shù):4903字
內(nèi)容摘要:
機器之心報道
編輯:陳萍、小舟模型參數(shù)量只有 137M,5 天就能訓(xùn)練好。一周前,OpenAI 給廣大用戶發(fā)放福利,在下場修復(fù) GPT-4 變懶的問題后,還順道上新了 5 個新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。
我們知道,嵌入是表示自然語言或代碼等內(nèi)容中概念的數(shù)字序列。嵌入使得機器學(xué)習(xí)模型和其他算法更容易理解內(nèi)容之間的關(guān)聯(lián),也更容易執(zhí)行聚類或檢索等任務(wù)。可見,嵌入在 NLP 領(lǐng)域是非常重要的。
不過,OpenAI 的嵌入模型并不是免費給大家使用的,比如 text-embedding-3-small 的收費價格是每 1k tokens 0.00002 美元。
現(xiàn)在,比 text-embedding-3-small 更好的嵌入模型來了,并且還不收費。
AI 初創(chuàng)公司 Nomic AI 宣布推出 Nomic Embed,這是首個開源、開放數(shù)據(jù)、開放權(quán)重、開放訓(xùn)練代碼、完全可復(fù)現(xiàn)和可審核的嵌入模型,上下文長度為 8192,在短上下文和長上下文基準測試中擊敗 OpenAI text-embeding-3-small 和 text-embeddi
原文鏈接:擊敗OpenAI,權(quán)重、數(shù)據(jù)、代碼全開源,能完美復(fù)現(xiàn)的嵌入模型Nomic Embed來了
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號