AIGC動態歡迎閱讀
原標題:擊敗OpenAI,權重、數據、代碼全開源,能完美復現的嵌入模型Nomic Embed來了
關鍵字:模型,基準,上下文,序列,長度
文章來源:機器之心
內容字數:4903字
內容摘要:
機器之心報道
編輯:陳萍、小舟模型參數量只有 137M,5 天就能訓練好。一周前,OpenAI 給廣大用戶發放福利,在下場修復 GPT-4 變懶的問題后,還順道上新了 5 個新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。
我們知道,嵌入是表示自然語言或代碼等內容中概念的數字序列。嵌入使得機器學習模型和其他算法更容易理解內容之間的關聯,也更容易執行聚類或檢索等任務。可見,嵌入在 NLP 領域是非常重要的。
不過,OpenAI 的嵌入模型并不是免費給大家使用的,比如 text-embedding-3-small 的收費價格是每 1k tokens 0.00002 美元。
現在,比 text-embedding-3-small 更好的嵌入模型來了,并且還不收費。
AI 初創公司 Nomic AI 宣布推出 Nomic Embed,這是首個開源、開放數據、開放權重、開放訓練代碼、完全可復現和可審核的嵌入模型,上下文長度為 8192,在短上下文和長上下文基準測試中擊敗 OpenAI text-embeding-3-small 和 text-embeddi
原文鏈接:擊敗OpenAI,權重、數據、代碼全開源,能完美復現的嵌入模型Nomic Embed來了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...