<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        后Scaling Law時代,需要一份向量數(shù)據(jù)庫的瑯琊榜

        AIGC動態(tài)5個月前發(fā)布 智東西
        135 0 0

        Zilliz的成功,是大模型時代創(chuàng)業(yè)公司從巨頭射程突圍的范例,更是長期主義的勝利。編輯|程茜Scaling Law的時代,真的結(jié)束了。最先發(fā)出警告的,來自ChatGPT背后的頭號功臣Ilya Sutskever。路透社的官方采訪中他直言不諱“ results from scaling up pre-training – the phase of training an AI model that uses a vast amount of unlabeled data to understand language patterns and structures – have plateaued.”——大數(shù)據(jù)訓(xùn)練,帶來的AI智能程度提升已達(dá)階段性瓶頸。但“Scaling the right thing matters more now than ever.”——選對正確的方向,比過去任何時代,都要更加重要與迫切。但是,風(fēng)向突變,未來大模型到底要Scaling什么?不同于技術(shù)前沿的恐慌四處彌漫,相比尋找最頂級的大模型,業(yè)界已經(jīng)早早將目光轉(zhuǎn)向了通往智能的另一條捷徑——向量數(shù)據(jù)庫。01.源起:AI時代的數(shù)據(jù)庫機會“如果說算力是火箭的機體,那么算法是控制系統(tǒng),數(shù)據(jù)是燃料,雖然每一輪計算機技術(shù)的都是從硬件開始,然后是算法的進(jìn)步,但數(shù)據(jù)才是最核心、最有價值的資源。”“未來這個賽道,將跑出估值至少百億美金的公司。”說話的是星爵,向量數(shù)據(jù)庫創(chuàng)業(yè)公司Zilliz的創(chuàng)始人。2017大模型開山之作Transformer 在論文《Attention is All You Need》中提出的同期,在Oracle工作了七年之久的他開啟了人生中的第一次創(chuàng)業(yè)——面向未來,做一款專屬于AI時代的數(shù)據(jù)庫產(chǎn)品。那是在大模型還沒等來ChatGPT的漫長蟄伏期,傳統(tǒng)CV、NLP卻在一輪輪天價融資與遲遲不見蹤影的市場化夾縫中,慢慢走向泡沫破裂的時刻。生存環(huán)境變得惡劣,遭遇的拷問也越來越嚴(yán)苛:數(shù)據(jù)庫是巨頭的游戲,創(chuàng)業(yè)公司憑什么參與?AI時代,為什么需要新的數(shù)據(jù)庫?這個數(shù)據(jù)庫,又與傳統(tǒng)數(shù)據(jù)庫有什么區(qū)別?回答這一切問題的前提,是對產(chǎn)業(yè)發(fā)展趨勢進(jìn)行足夠清晰的梳理。首先,AI時代,我們使用的數(shù)據(jù)本身有了什么變化?答案是從結(jié)構(gòu)化數(shù)據(jù),向非結(jié)構(gòu)化演變。相比傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),其格式更加不固定,有圖片、有音頻、有視頻、有文本、日志……而他們共同的特點,就是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)類型,難以用數(shù)據(jù)庫二維表來表現(xiàn)。與此同時,這些數(shù)據(jù)本身所涵蓋的信息密度更大,但如何提取背后隱含的信息,往往需要特殊的處理與分析,相對應(yīng)的如何對其進(jìn)行檢索與描述也是行業(yè)面臨的困境之一。此外,伴隨移動互聯(lián)網(wǎng)的發(fā)展,IDC統(tǒng)計發(fā)現(xiàn),非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量正在飛速增長,占據(jù)了全人類數(shù)據(jù)總量的80%之多。痛點眾多,但需求同樣迫切。算力和算法是大模型通往終局的耀眼明珠,但數(shù)據(jù)的質(zhì)量、規(guī)模和多樣性,則直接決定了所能挖掘到的信息的價值深度和廣度。如何滿足這一市場需求,這是面向AI時代的數(shù)據(jù)庫的機會,也是創(chuàng)業(yè)公司挑戰(zhàn)巨頭的底氣所在。但這個產(chǎn)品應(yīng)該如何建構(gòu)呢?星爵腦中冒出了一個前所未有的形態(tài)——向量數(shù)據(jù)庫。早在20世紀(jì)70年代末至90年代中期,人工智能浪潮尚在第二階段,那時的產(chǎn)業(yè)就已經(jīng)有了初步的非結(jié)構(gòu)化數(shù)據(jù)利用思路,將文本、圖片利用算法,進(jìn)行特征提取,然后將其轉(zhuǎn)化為空間中的不同向量維度進(jìn)行表示。比如一朵玫瑰花的照片,在向量空間中,可以被描述為:圖片格式、植物、紅色、愛情、保質(zhì)期短、花卉等幾百上千個維度,這些維度全部以數(shù)字與代碼的形式呈現(xiàn)給計算機,在此基礎(chǔ)上,人工智能通過暴力的學(xué)習(xí),進(jìn)而掌握玫瑰花的圖片識別能力。如果將這一過程進(jìn)行產(chǎn)品化升級,也就奠定了向量數(shù)據(jù)庫的產(chǎn)品雛形。由此,在星爵的帶領(lǐng)下,Zilliz敲下了全世界向量數(shù)據(jù)庫的第一行代碼,全世界第一個向量數(shù)據(jù)庫產(chǎn)品Milvus正式誕生了。在此之后,2019年10月15日,Zilliz正式宣布將 Milvus在GitHub上開源,用戶只需一臺服務(wù)器,區(qū)區(qū)十行代碼,就可以輕松實現(xiàn)十億圖庫的以圖搜圖,響應(yīng)時間僅為數(shù)百毫秒。在此之后以圖搜圖、視頻搜索、企業(yè)知識庫構(gòu)建相繼爆火,Milvus在Github上的star短短三年,就突破了一萬的數(shù)量,但此時距離向量數(shù)據(jù)庫真正在大眾范圍內(nèi)出圈,還差一把火。02.爆發(fā):LLM陰云籠罩,RAG外掛破局如果科技產(chǎn)業(yè)有自己的編年體史書,關(guān)于2022-2024這三年的瘋狂,大概可以被這樣概括:2022年年終,ChatGPT橫空出世,大模型火遍全球。2023年,百模齊發(fā),英偉達(dá)稱王;然而,如何解決大模型幻覺,卻始終是圍繞在大模型頭頂,一朵揮之不去的陰云。2024年,OpenAI內(nèi)亂,Scaling Law觸頂成為大模型落地的第二朵陰云,大模型的本質(zhì)是有損壓縮的觀點被越來越多的人認(rèn)同。如何破局?RAG成為業(yè)內(nèi)公認(rèn)的解決方案。但什么是RAG?翻譯成中文,就是檢索增強生成。具體來說,一個典型的RAG框架可以分為檢索器(Retriever)和生成器(Generator)兩部分,檢索過程包括為數(shù)據(jù)(如Documents)做切分、嵌入向量(Embedding)、并構(gòu)建索引(Chunks Vectors),再通過向量檢索以召回相關(guān)結(jié)果,而生成過程則是利用基于檢索結(jié)果(Context)增強的Prompt來激活LLM以生成回答(Result)。其中,檢索系統(tǒng)通過將特定領(lǐng)域知識、實時更新信息等大模型所不具備的內(nèi)容進(jìn)行向量化并存儲,可以以“外掛”的形式補足了大模型的知識短板;而生成模型則能夠靈活地構(gòu)建回答,并融入更廣泛的語境和信息。而作為RAG檢索系統(tǒng)的核心,向量數(shù)據(jù)庫也從2023年起,成為各大企業(yè)大模型落地過程中的基礎(chǔ)應(yīng)用工具。甚至就連Open AI,也是向量數(shù)據(jù)庫的資深擁躉,早在2023年3月,OpenAI就官宣, 通過chatgpt-retrieval-plugin 插件集成向量數(shù)據(jù)庫,是大模型產(chǎn)品形成長期記憶一個必不可少的環(huán)節(jié)。也是自這一天起,向量數(shù)據(jù)庫平靜已久的市場瞬間沸騰,成為大模型產(chǎn)業(yè)最重要的基礎(chǔ)設(shè)施之一:不僅這一年的OpenAI 發(fā)布會與英偉達(dá)GTC大會上,老牌玩家Zilliz先后被列入官方插件庫并受邀上臺演講,僅僅一個多月,數(shù)十億熱錢就在一級市場涌入向量數(shù)據(jù)庫賽道。追隨熱度,一度有企業(yè)靠著概念就將公司估值推升至 數(shù)十億,魔改ClickHouse 、 HNSWlib加上向量檢索封裝就緊急推出向量數(shù)據(jù)庫產(chǎn)品的玩家更是多如過江之鯽。而Zilliz2019年開源的向量數(shù)據(jù)庫Milvus在GitHub的Star數(shù),也在2023至2024年期間,迅速從一萬增長至三萬。但向量數(shù)據(jù)庫之于大模型,能力僅限于此嗎?答案是否定的。在解決了大模型的幻覺問題之后,大模型的第二朵陰云,在2024年悄然浮現(xiàn)。這一年,以Ilya Sutskever為代表,一眾大模型頂級研發(fā)大牛逐漸發(fā)覺,大模型的Scaling Law效率正逐漸變得越來越低,與此同時,如果保持如今的參數(shù)膨脹效率,預(yù)計在 2028 年左右,全世界公域互聯(lián)網(wǎng)中的數(shù)據(jù)儲量將被全部利用完。大模型幾乎將所有公域的知識學(xué)習(xí)殆盡,但為什么還未實現(xiàn)真正意義上的通用人工智能?大模型剛剛興起之時,業(yè)內(nèi)一度對大模型的認(rèn)知是大模型是現(xiàn)實世界的無損壓縮編碼,因此只要大模型學(xué)習(xí)足夠多的知識,就能還原真實的世界,像現(xiàn)實世界中的人類一樣聰明,甚至通過還原真實世界,可以發(fā)掘其背后潛在的運行規(guī)律。如今,隨著Scaling Law放緩,越來越多的人開始意識到,大模型的壓縮本質(zhì),是一種有損壓縮。在學(xué)習(xí)互聯(lián)網(wǎng)的各種信息之時,大模型往往只能通過內(nèi)容的組合方式、語法規(guī)則等維度,去對信息進(jìn)行高度的凝練與規(guī)則提取,而這個壓縮過程,往往伴隨的,就是細(xì)節(jié)的丟失,知識體系的簡化、以及長尾知識的空白。如果以這種缺失細(xì)節(jié)與深度邏輯的算法去進(jìn)行推理,結(jié)果就會類似我們古代成語中的“按圖索驥”,以抽象的高額頭、大眼睛、粗四肢為特征,最終找到的可能不是千里馬,而是完全符合標(biāo)準(zhǔn)的蛤蟆。答案依舊是向量數(shù)據(jù)庫與RAG。向量數(shù)據(jù)庫不僅支持對數(shù)據(jù)的更多維度解構(gòu),同時也可以對細(xì)節(jié)進(jìn)行更高程度的還原,并對長尾知識進(jìn)行存儲,基于此構(gòu)建的RAG,可以很好的彌補大模型對真實世界有損壓縮帶來的缺陷。比如在圖像領(lǐng)域,今年爆火的ColPali RAG、iRAG、VisRAG,都是其中代表。也是因此,今年年底,在Menlo Ventures對600家美國企業(yè)進(jìn)行調(diào)研之后發(fā)現(xiàn),企業(yè) AI 的部署落地中,RAG占比從2023年的31%,到2024年上升到 51%,與之形成鮮明對比,生產(chǎn)環(huán)境中,僅有9%的生產(chǎn)模型采用微調(diào)方式進(jìn)行模型部署。向量數(shù)據(jù)庫與RAG,幾乎成為了大模型落地的默認(rèn)最強外掛。但不同于C端用戶可以在office辦公套件與國產(chǎn)的WPS之間靈活切換;由于關(guān)系到企業(yè)隱私數(shù)據(jù)的管理,以及頂層業(yè)務(wù)的搭建,B端對數(shù)據(jù)庫的選擇往往慎之又慎,企業(yè)一旦找到合適的產(chǎn)品,就會受限于數(shù)據(jù)遷移成本高、與現(xiàn)有系統(tǒng)集成緊密、運維和管理成本高等綜合因素,在很長一段時間內(nèi)不會進(jìn)行更換。數(shù)據(jù)庫一用四十年,產(chǎn)品生命周期比程序員職業(yè)周期還長的情況,在這一行業(yè)并不罕見。舉個簡單例子,在金融賽道,大模型除了需要掌握公開的知識,還需要大規(guī)模、多樣化、高質(zhì)量、實時的用戶交易記錄、信用記錄、消費行為等數(shù)據(jù),才能準(zhǔn)確預(yù)測客戶的信用風(fēng)險和投資偏好,并基于此為投資者提供更全面、準(zhǔn)確的投資建議;在醫(yī)療行業(yè),在疾病診斷中,向量數(shù)據(jù)庫能夠提供準(zhǔn)確詳細(xì)的病歷數(shù)據(jù)、檢驗檢查結(jié)果等數(shù)據(jù),是大模型準(zhǔn)確判斷疾病類型、嚴(yán)重程度和制定治療方案的關(guān)鍵。也是因此,如何選擇合適的向量數(shù)據(jù)庫,也成為了困擾無數(shù)大模型應(yīng)用開發(fā)者的頭疼問題。03.激戰(zhàn):向量數(shù)據(jù)庫的瑯琊榜不久前,全球知名研究機構(gòu)Forrester發(fā)布《2024年第三季度向量數(shù)據(jù)庫供應(yīng)商Wave報告》,正式對向量數(shù)據(jù)庫市場的江湖座次,用一張瑯琊榜給出了自己的評判。在這份報告中,F(xiàn)orrester選擇了14家向量數(shù)據(jù)庫供應(yīng)商,對其產(chǎn)品能力、商業(yè)策略、市場表現(xiàn)為核心的25項評估標(biāo)準(zhǔn)進(jìn)行打分,參賽選手既包括AWS等知名大廠,也有甲骨文、MangoDB等老牌數(shù)據(jù)庫玩家,以及Zilliz等向量數(shù)據(jù)庫代表玩家。在這張表中,橫軸代表玩家的戰(zhàn)略(strategy),對應(yīng)企業(yè)的戰(zhàn)略創(chuàng)新能力,縱軸代表當(dāng)前產(chǎn)品的能力(current offering),圓圈的大小代表企業(yè)的市場份額(market presence)。三個半圓的象限,則是Forrester報告設(shè)定的領(lǐng)導(dǎo)者(leaders)、表現(xiàn)強勁(strong performers)、競爭者(contenders)三大玩家梯隊。通過這張表,不難發(fā)現(xiàn),一方面AWS等云服務(wù)巨頭掌握了市場相當(dāng)一部分用戶數(shù),但與此同時,Zilliz為代表的創(chuàng)業(yè)公司,也首次沖進(jìn)領(lǐng)導(dǎo)者象限,成為這個市場在產(chǎn)品以及技術(shù)創(chuàng)新方向的領(lǐng)頭羊。緊隨其后,第二梯隊玩家同樣表現(xiàn)強勁,這也是所含企業(yè)最多的層級,包括甲骨文等7家供應(yīng)商。但相比于領(lǐng)導(dǎo)者,這些供應(yīng)商在某些方面存在明顯不足,如微軟缺乏高級向量功能、甲骨文的解決方案尚未成熟……第三梯隊的競爭者相比上述兩類,綜合表現(xiàn)較弱,其產(chǎn)品大多不成熟或者缺少部分重要功能。更具體拆解來看,報告中認(rèn)為,企業(yè)在選擇向量數(shù)據(jù)庫時應(yīng)該重點關(guān)注三個主要方面:支持廣泛的核心向量功能、簡化向量的數(shù)據(jù)管理、以高效形式實現(xiàn)性能與規(guī)模的交付。而想要做到這些,向量數(shù)據(jù)庫需要構(gòu)建包括向量索引、元數(shù)據(jù)管理、向量搜索和混合搜索等在內(nèi)的全面功能,同時為了保證企業(yè)交互友好、便利,向量數(shù)據(jù)庫需要兼顧廣泛數(shù)據(jù)管理功能和簡化部署、快速開發(fā)的能力。此外,面對不斷膨脹的大模型規(guī)模,向量數(shù)據(jù)庫在存儲和處理數(shù)千萬到上億個向量時,還應(yīng)能保證查詢速度,并根據(jù)工作負(fù)載要求進(jìn)行彈性擴展和收縮。以此次領(lǐng)導(dǎo)者向量數(shù)據(jù)庫企業(yè)Zilliz為例,在具體得分上,F(xiàn)orrester在向量維度、向量索引、性能、可擴展性方面給這家企業(yè)打出了高分,指出其不僅擅長管理大量向量數(shù)據(jù),同時兼具優(yōu)化的存儲、高效管理和搜索功能。比如在可擴展性層面,通過這份公開的產(chǎn)品對比不難發(fā)現(xiàn),相比傳統(tǒng)數(shù)據(jù)庫玩家,Milvus通過支持磁盤索引,可以實現(xiàn)更輕松擴展和更合理的資源分配。通常來說,磁盤索引可以將部分?jǐn)?shù)據(jù)存儲在磁盤上,僅在需要時加載到內(nèi)存中;支持Partition/Namespace/邏輯分組,則可以將數(shù)據(jù)按照特定的規(guī)則或?qū)傩赃M(jìn)行劃分,同時根據(jù)重要性或訪問頻率分配不同資源。此外,Milvus支持的索引類型多達(dá)11種,這也使其更能適應(yīng)不同數(shù)據(jù)特點,并提升查詢準(zhǔn)確性。▲Milvus和MongoDB向量數(shù)據(jù)庫產(chǎn)品可擴展性對比那么一個新的問題來了,一家創(chuàng)業(yè)公司,如何在巨頭的包圍中層層突圍,打造大模型時代的新型基礎(chǔ)設(shè)施?04.突圍:創(chuàng)業(yè)公司如何打造大模型時代的新型基礎(chǔ)設(shè)施一定程度上,Zilliz的成功,是一個大模型時代,創(chuàng)業(yè)公司從巨頭射程突圍,野蠻生長的范例。這背后,既有歷史進(jìn)程的助推,同樣離不開企業(yè)自身技術(shù)遠(yuǎn)見與長期主義堅持。于時代背景而言,2022年底發(fā)布的ChatGPT,是這家企業(yè)從低調(diào)蟄伏到一鳴驚人的拐點。大模型的普及,加速讓非結(jié)構(gòu)化數(shù)據(jù)的處理成為主流,向量數(shù)據(jù)庫自此闖入聚光燈下。恰逢其時,傳統(tǒng)的數(shù)據(jù)庫企業(yè),盡管擁有更好的技術(shù)基礎(chǔ)、數(shù)據(jù)資源與客戶基礎(chǔ),然而其為傳統(tǒng)倒排索引而構(gòu)建的的產(chǎn)品形態(tài),對于需要基于密集向量檢索、數(shù)據(jù)規(guī)模極速膨脹的大模型而言,原本的優(yōu)勢被重新翻譯為在向量檢索上的搜索與性能不足。與之形成對比,專業(yè)向量數(shù)據(jù)庫不僅能夠在毫秒級時間內(nèi)完成上億個目標(biāo)的檢索與召回;更能通過分布式架構(gòu)與先進(jìn)存儲技術(shù),可以在不影響系統(tǒng)性能的前提下,實現(xiàn)從處理小規(guī)模向量數(shù)據(jù),到支持百億甚至千億級向量數(shù)據(jù)的平滑過渡。而與同行的專業(yè)向量數(shù)據(jù)庫玩家相比,Zilliz最大的優(yōu)勢則在于時間積累起的生態(tài)護城河。與多數(shù)玩家2023年才趕鴨子上架式一股腦涌入向量數(shù)據(jù)庫不同,Zilliz是唯一一家在2019年就推出產(chǎn)品化開源向量數(shù)據(jù)庫的玩家。而對于數(shù)據(jù)庫這樣一個強調(diào)生態(tài)效應(yīng)的市場,五年足以構(gòu)建起一堵足夠?qū)捄竦募夹g(shù)與行業(yè)認(rèn)知組建起的銅墻鐵壁。在對手還在使用開源算法進(jìn)行產(chǎn)品封裝之時,Zilliz不僅有Github 3W star的開源向量數(shù)據(jù)庫Milvus,同時還推出了商業(yè)化產(chǎn)品Zilliz Cloud,為用戶提供百億級向量數(shù)據(jù)毫秒級檢索能力、開箱即用的向量數(shù)據(jù)庫服務(wù)。與此同時,大模型的快速普及,也為無數(shù)Zilliz這樣的中間層玩家,帶來了前所未有的全球化機遇。不同于老一代互聯(lián)網(wǎng)企業(yè)的出海敘事,亦或是copy to China、copy from China,Zilliz從成立第一天,就面向全球市場,其商業(yè)化進(jìn)程也通過借助AWS這樣的云服務(wù)巨頭,實現(xiàn)了全球化擴張,讓用戶可以基于Bedrock+Zilliz Cloud構(gòu)建一整套完整的RAG應(yīng)用、以圖搜圖系統(tǒng)、算法推薦系統(tǒng)等,加速企業(yè)的大模型落地。在這一過程中,Zilliz不僅在全球范圍內(nèi)積累了上萬企業(yè)級用戶,產(chǎn)品更是被廣泛應(yīng)用于圖片檢索、視頻分析、自然語言理解、推薦系統(tǒng)、定向廣告、個性化搜索、智能客服、欺詐檢測、網(wǎng)絡(luò)安全和新藥發(fā)現(xiàn)等各個領(lǐng)域,完成從新興玩家到大模型基礎(chǔ)設(shè)施的進(jìn)化。當(dāng)時代的風(fēng)口來臨,參與其中,每個人都能聽到風(fēng)的聲音,但真正穿越周期,走出巨頭與時代突圍,長期主義才是唯一的答案。(本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。)


        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产免费一级高清淫曰本片| 亚洲午夜无码久久| 中国毛片免费观看| 中文字幕亚洲乱码熟女一区二区| 男人和女人高潮免费网站| 亚洲国产精品碰碰| 一本一道dvd在线观看免费视频| 亚洲中文无韩国r级电影| 国产男女爽爽爽免费视频| 亚洲美女又黄又爽在线观看| 成av免费大片黄在线观看| 久久久亚洲精品国产| 永久黄色免费网站| 亚洲AV一二三区成人影片| 性色av免费观看| 日本免费精品一区二区三区 | 亚洲av永久无码制服河南实里| 羞羞视频免费网站在线看| 中文字幕精品亚洲无线码二区| 久久久久久久岛国免费播放| 久久亚洲私人国产精品| 日本XXX黄区免费看| 亚洲色偷偷色噜噜狠狠99| 日韩精品电影一区亚洲| 香蕉视频在线免费看| 亚洲国产美女视频| 国产成人一区二区三区免费视频| 特a级免费高清黄色片| 亚洲av无码国产精品夜色午夜 | 日韩精品无码人妻免费视频| 黄色三级三级免费看| 亚洲精品无码高潮喷水在线| 7723日本高清完整版免费| 国产成人亚洲综合a∨| 亚洲成av人影院| 在线观看人成视频免费| 午夜在线免费视频| 亚洲国产精品免费在线观看| 亚洲国产精品尤物yw在线| 亚洲黄色免费网站| 一区二区三区免费视频观看 |