AIGC動態歡迎閱讀
原標題:OpenAI新模型用的嵌入技術被網友扒出來了
關鍵字:表征,向量,模型,研究者,論文
文章來源:機器之心
內容字數:4099字
內容摘要:
機器之心報道
編輯:蛋醬學起來吧。前幾天,OpenAI 來了一波重磅更新,一口氣宣布了 5 個新模型,其中就包括兩個新的文本嵌入模型。
我們知道,嵌入是表示自然語言或代碼等內容中概念的數字序列。嵌入使得機器學習模型和其他算法更容易理解內容之間的關聯,也更容易執行聚類或檢索等任務。
使用更大的嵌入(比如將它們存儲在向量存儲器中以供檢索)通常要比更小的嵌入消耗更高的成本、以及更多的算力、內存和存儲。而 OpenAI 此次推出的兩個文本嵌入模型分別是更小且高效的 text-embedding-3-small 模型和更大且更強大的 text-embedding-3-large 模型。
這兩個新嵌入模型都使用一種技術進行訓練,允許開發人員權衡使用嵌入的性能和成本。具體來說,開發者通過在 dimensions API 參數中傳遞嵌入而不丟失其概念表征屬性,從而縮短嵌入(即從序列末尾刪除一些數字)。例如在 MTEB 基準上,text-embedding-3-large 可以縮短為 256 的大小, 同時性能仍然優于未縮短的 text-embedding-ada-002 嵌入(大小為 1536)。這一
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...