后Scaling Law時代，需要一份向量數據庫的瑯琊榜

AIGC動態9個月前發布智東西

139 0 0

Zilliz的成功，是大模型時代創業公司從巨頭射程突圍的范例，更是長期主義的勝利。編輯|程茜Scaling Law的時代，真的結束了。最先發出警告的，來自ChatGPT背后的頭號功臣Ilya Sutskever。路透社的官方采訪中他直言不諱“ results from scaling up pre-training – the phase of training an AI model that uses a vast amount of unlabeled data to understand language patterns and structures – have plateaued．”——大數據訓練，帶來的AI智能程度提升已達階段性瓶頸。但“Scaling the right thing matters more now than ever．”——選對正確的方向，比過去任何時代，都要更加重要與迫切。但是，風向突變，未來大模型到底要Scaling什么？不同于技術前沿的恐慌四處彌漫，相比尋找最頂級的大模型，業界已經早早將目光轉向了通往智能的另一條捷徑——向量數據庫。01.源起：AI時代的數據庫機會“如果說算力是火箭的機體，那么算法是控制系統，數據是燃料，雖然每一輪計算機技術的都是從硬件開始，然后是算法的進步，但數據才是最核心、最有價值的資源?！薄拔磥磉@個賽道，將跑出估值至少百億美金的公司?！闭f話的是星爵，向量數據庫創業公司Zilliz的創始人。2017大模型開山之作Transformer 在論文《Attention is All You Need》中提出的同期，在Oracle工作了七年之久的他開啟了人生中的第一次創業——面向未來，做一款專屬于AI時代的數據庫產品。那是在大模型還沒等來ChatGPT的漫長蟄伏期，傳統CV、NLP卻在一輪輪天價融資與遲遲不見蹤影的市場化夾縫中，慢慢走向泡沫破裂的時刻。生存環境變得惡劣，遭遇的拷問也越來越嚴苛：數據庫是巨頭的游戲，創業公司憑什么參與？AI時代，為什么需要新的數據庫？這個數據庫，又與傳統數據庫有什么區別？回答這一切問題的前提，是對產業發展趨勢進行足夠清晰的梳理。首先，AI時代，我們使用的數據本身有了什么變化？答案是從結構化數據，向非結構化演變。相比傳統的結構化數據，其格式更加不固定，有圖片、有音頻、有視頻、有文本、日志……而他們共同的特點，就是數據結構不規則或不完整，沒有預定義的數據類型，難以用數據庫二維表來表現。與此同時，這些數據本身所涵蓋的信息密度更大，但如何提取背后隱含的信息，往往需要特殊的處理與分析，相對應的如何對其進行檢索與描述也是行業面臨的困境之一。此外，伴隨移動互聯網的發展，IDC統計發現，非結構化數據的數量正在飛速增長，占據了全人類數據總量的80%之多。痛點眾多，但需求同樣迫切。算力和算法是大模型通往終局的耀眼明珠，但數據的質量、規模和多樣性，則直接決定了所能挖掘到的信息的價值深度和廣度。如何滿足這一市場需求，這是面向AI時代的數據庫的機會，也是創業公司挑戰巨頭的底氣所在。但這個產品應該如何建構呢？星爵腦中冒出了一個前所未有的形態——向量數據庫。早在20世紀70年代末至90年代中期，人工智能浪潮尚在第二階段，那時的產業就已經有了初步的非結構化數據利用思路，將文本、圖片利用算法，進行特征提取，然后將其轉化為空間中的不同向量維度進行表示。比如一朵玫瑰花的照片，在向量空間中，可以被描述為：圖片格式、植物、紅色、愛情、保質期短、花卉等幾百上千個維度，這些維度全部以數字與代碼的形式呈現給計算機，在此基礎上，人工智能通過暴力的學習，進而掌握玫瑰花的圖片識別能力。如果將這一過程進行產品化升級，也就奠定了向量數據庫的產品雛形。由此，在星爵的帶領下，Zilliz敲下了全世界向量數據庫的第一行代碼，全世界第一個向量數據庫產品Milvus正式誕生了。在此之后，2019年10月15日，Zilliz正式宣布將 Milvus在GitHub上開源，用戶只需一臺服務器，區區十行代碼，就可以輕松實現十億圖庫的以圖搜圖，響應時間僅為數百毫秒。在此之后以圖搜圖、視頻搜索、企業知識庫構建相繼爆火，Milvus在Github上的star短短三年，就突破了一萬的數量，但此時距離向量數據庫真正在大眾范圍內出圈，還差一把火。02.爆發：LLM陰云籠罩，RAG外掛破局如果科技產業有自己的編年體史書，關于2022-2024這三年的瘋狂，大概可以被這樣概括：2022年年終，ChatGPT橫空出世，大模型火遍全球。2023年，百模齊發，英偉達稱王；然而，如何解決大模型幻覺，卻始終是圍繞在大模型頭頂，一朵揮之不去的陰云。2024年，OpenAI內亂，Scaling Law觸頂成為大模型落地的第二朵陰云，大模型的本質是有損壓縮的觀點被越來越多的人認同。如何破局？RAG成為業內公認的解決方案。但什么是RAG？翻譯成中文，就是檢索增強生成。具體來說，一個典型的RAG框架可以分為檢索器（Retriever）和生成器（Generator）兩部分，檢索過程包括為數據（如Documents）做切分、嵌入向量（Embedding）、并構建索引（Chunks Vectors），再通過向量檢索以召回相關結果，而生成過程則是利用基于檢索結果（Context）增強的Prompt來激活LLM以生成回答（Result）。其中，檢索系統通過將特定領域知識、實時更新信息等大模型所不具備的內容進行向量化并存儲，可以以“外掛”的形式補足了大模型的知識短板；而生成模型則能夠靈活地構建回答，并融入更廣泛的語境和信息。而作為RAG檢索系統的核心，向量數據庫也從2023年起，成為各大企業大模型落地過程中的基礎應用工具。甚至就連Open AI，也是向量數據庫的資深擁躉，早在2023年3月，OpenAI就官宣，通過chatgpt-retrieval-plugin 插件集成向量數據庫，是大模型產品形成長期記憶一個必不可少的環節。也是自這一天起，向量數據庫平靜已久的市場瞬間沸騰，成為大模型產業最重要的基礎設施之一：不僅這一年的OpenAI 發布會與英偉達GTC大會上，老牌玩家Zilliz先后被列入官方插件庫并受邀上臺演講，僅僅一個多月，數十億熱錢就在一級市場涌入向量數據庫賽道。追隨熱度，一度有企業靠著概念就將公司估值推升至數十億，魔改ClickHouse 、 HNSWlib加上向量檢索封裝就緊急推出向量數據庫產品的玩家更是多如過江之鯽。而Zilliz2019年開源的向量數據庫Milvus在GitHub的Star數，也在2023至2024年期間，迅速從一萬增長至三萬。但向量數據庫之于大模型，能力僅限于此嗎？答案是否定的。在解決了大模型的幻覺問題之后，大模型的第二朵陰云，在2024年悄然浮現。這一年，以Ilya Sutskever為代表，一眾大模型頂級研發大牛逐漸發覺，大模型的Scaling Law效率正逐漸變得越來越低，與此同時，如果保持如今的參數膨脹效率，預計在 2028 年左右，全世界公域互聯網中的數據儲量將被全部利用完。大模型幾乎將所有公域的知識學習殆盡，但為什么還未實現真正意義上的通用人工智能？大模型剛剛興起之時，業內一度對大模型的認知是大模型是現實世界的無損壓縮編碼，因此只要大模型學習足夠多的知識，就能還原真實的世界，像現實世界中的人類一樣聰明，甚至通過還原真實世界，可以發掘其背后潛在的運行規律。如今，隨著Scaling Law放緩，越來越多的人開始意識到，大模型的壓縮本質，是一種有損壓縮。在學習互聯網的各種信息之時，大模型往往只能通過內容的組合方式、語法規則等維度，去對信息進行高度的凝練與規則提取，而這個壓縮過程，往往伴隨的，就是細節的丟失，知識體系的簡化、以及長尾知識的空白。如果以這種缺失細節與深度邏輯的算法去進行推理，結果就會類似我們古代成語中的“按圖索驥”，以抽象的高額頭、大眼睛、粗四肢為特征，最終找到的可能不是千里馬，而是完全符合標準的蛤蟆。答案依舊是向量數據庫與RAG。向量數據庫不僅支持對數據的更多維度解構，同時也可以對細節進行更高程度的還原，并對長尾知識進行存儲，基于此構建的RAG，可以很好的彌補大模型對真實世界有損壓縮帶來的缺陷。比如在圖像領域，今年爆火的ColPali RAG、iRAG、VisRAG，都是其中代表。也是因此，今年年底，在Menlo Ventures對600家美國企業進行調研之后發現，企業 AI 的部署落地中，RAG占比從2023年的31%，到2024年上升到 51%，與之形成鮮明對比，生產環境中，僅有9%的生產模型采用微調方式進行模型部署。向量數據庫與RAG，幾乎成為了大模型落地的默認最強外掛。但不同于C端用戶可以在office辦公套件與國產的WPS之間靈活切換；由于關系到企業隱私數據的管理，以及頂層業務的搭建，B端對數據庫的選擇往往慎之又慎，企業一旦找到合適的產品，就會受限于數據遷移成本高、與現有系統集成緊密、運維和管理成本高等綜合因素，在很長一段時間內不會進行更換。數據庫一用四十年，產品生命周期比程序員職業周期還長的情況，在這一行業并不罕見。舉個簡單例子，在金融賽道，大模型除了需要掌握公開的知識，還需要大規模、多樣化、高質量、實時的用戶交易記錄、信用記錄、消費行為等數據，才能準確預測客戶的信用風險和投資偏好，并基于此為投資者提供更全面、準確的投資建議；在醫療行業，在疾病診斷中，向量數據庫能夠提供準確詳細的病歷數據、檢驗檢查結果等數據，是大模型準確判斷疾病類型、嚴重程度和制定治療方案的關鍵。也是因此，如何選擇合適的向量數據庫，也成為了困擾無數大模型應用開發者的頭疼問題。03.激戰：向量數據庫的瑯琊榜不久前，全球知名研究機構Forrester發布《2024年第三季度向量數據庫供應商Wave報告》，正式對向量數據庫市場的江湖座次，用一張瑯琊榜給出了自己的評判。在這份報告中，Forrester選擇了14家向量數據庫供應商，對其產品能力、商業策略、市場表現為核心的25項評估標準進行打分，參賽選手既包括AWS等知名大廠，也有甲骨文、MangoDB等老牌數據庫玩家，以及Zilliz等向量數據庫代表玩家。在這張表中，橫軸代表玩家的戰略（strategy），對應企業的戰略創新能力，縱軸代表當前產品的能力（current offering），圓圈的大小代表企業的市場份額（market presence）。三個半圓的象限，則是Forrester報告設定的領導者（leaders）、表現強勁（strong performers）、競爭者（contenders）三大玩家梯隊。通過這張表，不難發現，一方面AWS等云服務巨頭掌握了市場相當一部分用戶數，但與此同時，Zilliz為代表的創業公司，也首次沖進領導者象限，成為這個市場在產品以及技術創新方向的領頭羊。緊隨其后，第二梯隊玩家同樣表現強勁，這也是所含企業最多的層級，包括甲骨文等7家供應商。但相比于領導者，這些供應商在某些方面存在明顯不足，如微軟缺乏高級向量功能、甲骨文的解決方案尚未成熟……第三梯隊的競爭者相比上述兩類，綜合表現較弱，其產品大多不成熟或者缺少部分重要功能。更具體拆解來看，報告中認為，企業在選擇向量數據庫時應該重點關注三個主要方面：支持廣泛的核心向量功能、簡化向量的數據管理、以高效形式實現性能與規模的交付。而想要做到這些，向量數據庫需要構建包括向量索引、元數據管理、向量搜索和混合搜索等在內的全面功能，同時為了保證企業交互友好、便利，向量數據庫需要兼顧廣泛數據管理功能和簡化部署、快速開發的能力。此外，面對不斷膨脹的大模型規模，向量數據庫在存儲和處理數千萬到上億個向量時，還應能保證查詢速度，并根據工作負載要求進行彈性擴展和收縮。以此次領導者向量數據庫企業Zilliz為例，在具體得分上，Forrester在向量維度、向量索引、性能、可擴展性方面給這家企業打出了高分，指出其不僅擅長管理大量向量數據，同時兼具優化的存儲、高效管理和搜索功能。比如在可擴展性層面，通過這份公開的產品對比不難發現，相比傳統數據庫玩家，Milvus通過支持磁盤索引，可以實現更輕松擴展和更合理的資源分配。通常來說，磁盤索引可以將部分數據存儲在磁盤上，僅在需要時加載到內存中；支持Partition/Namespace/邏輯分組，則可以將數據按照特定的規則或屬性進行劃分，同時根據重要性或訪問頻率分配不同資源。此外，Milvus支持的索引類型多達11種，這也使其更能適應不同數據特點，并提升查詢準確性?！鳰ilvus和MongoDB向量數據庫產品可擴展性對比那么一個新的問題來了，一家創業公司，如何在巨頭的包圍中層層突圍，打造大模型時代的新型基礎設施？04.突圍：創業公司如何打造大模型時代的新型基礎設施一定程度上，Zilliz的成功，是一個大模型時代，創業公司從巨頭射程突圍，野蠻生長的范例。這背后，既有歷史進程的助推，同樣離不開企業自身技術遠見與長期主義堅持。于時代背景而言，2022年底發布的ChatGPT，是這家企業從低調蟄伏到一鳴驚人的拐點。大模型的普及，加速讓非結構化數據的處理成為主流，向量數據庫自此闖入聚光燈下。恰逢其時，傳統的數據庫企業，盡管擁有更好的技術基礎、數據資源與客戶基礎，然而其為傳統倒排索引而構建的的產品形態，對于需要基于密集向量檢索、數據規模極速膨脹的大模型而言，原本的優勢被重新翻譯為在向量檢索上的搜索與性能不足。與之形成對比，專業向量數據庫不僅能夠在毫秒級時間內完成上億個目標的檢索與召回；更能通過分布式架構與先進存儲技術，可以在不影響系統性能的前提下，實現從處理小規模向量數據，到支持百億甚至千億級向量數據的平滑過渡。而與同行的專業向量數據庫玩家相比，Zilliz最大的優勢則在于時間積累起的生態護城河。與多數玩家2023年才趕鴨子上架式一股腦涌入向量數據庫不同，Zilliz是唯一一家在2019年就推出產品化開源向量數據庫的玩家。而對于數據庫這樣一個強調生態效應的市場，五年足以構建起一堵足夠寬厚的技術與行業認知組建起的銅墻鐵壁。在對手還在使用開源算法進行產品封裝之時，Zilliz不僅有Github 3W star的開源向量數據庫Milvus，同時還推出了商業化產品Zilliz Cloud，為用戶提供百億級向量數據毫秒級檢索能力、開箱即用的向量數據庫服務。與此同時，大模型的快速普及，也為無數Zilliz這樣的中間層玩家，帶來了前所未有的全球化機遇。不同于老一代互聯網企業的出海敘事，亦或是copy to China、copy from China，Zilliz從成立第一天，就面向全球市場，其商業化進程也通過借助AWS這樣的云服務巨頭，實現了全球化擴張，讓用戶可以基于Bedrock+Zilliz Cloud構建一整套完整的RAG應用、以圖搜圖系統、算法推薦系統等，加速企業的大模型落地。在這一過程中，Zilliz不僅在全球范圍內積累了上萬企業級用戶，產品更是被廣泛應用于圖片檢索、視頻分析、自然語言理解、推薦系統、定向廣告、個性化搜索、智能客服、欺詐檢測、網絡安全和新藥發現等各個領域，完成從新興玩家到大模型基礎設施的進化。當時代的風口來臨，參與其中，每個人都能聽到風的聲音，但真正穿越周期，走出巨頭與時代突圍，長期主義才是唯一的答案。（本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容，未經賬號授權，禁止隨意轉載。）

閱讀原文