長文本殺不死RAG：SQL+向量驅(qū)動大模型和大數(shù)據(jù)新范式，MyScale AI數(shù)據(jù)庫正式開源

AIGC動態(tài)2年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：長文本殺不死RAG：SQL+向量驅(qū)動大模型和大數(shù)據(jù)新范式，MyScale AI數(shù)據(jù)庫正式開源
關鍵字：向量,數(shù)據(jù)庫,數(shù)據(jù),模型,系統(tǒng)
文章來源：機器之心
內(nèi)容字數(shù)：7830字

內(nèi)容摘要：

機器之心發(fā)布
機器之心編輯部大模型和 AI 數(shù)據(jù)庫雙劍合璧，成為大模型降本增效，大數(shù)據(jù)真正智能的制勝法寶。大模型（LLM）的浪潮已經(jīng)涌動一年多了，尤其是以 GPT-4、Gemini-1.5、Claude-3 等為代表的模型你方唱罷我登場，成為當之無愧的風口。在 LLM 這條賽道上，有的研究專注于增加模型參數(shù)，有的瘋狂卷多模態(tài)…… 這當中，LLM 處理上下文長度的能力成為了評估模型的一個重要指標，更強的上下文意味著模型擁有更強的檢索性能。例如有些模型一口氣可以處理高達 100 萬 token 的能力讓不少研究者開始思考，RAG （Retrieval-Augmented Generation，檢索增強生成）方法還有存在的必要嗎？
有人認為 RAG 要被長上下文模型了，但這種觀點遭到了很多研究者和架構師的反駁。他們認為一方面數(shù)據(jù)結構復雜、定期變化，并且很多數(shù)據(jù)具有重要的時間維度，這些數(shù)據(jù)對于 LLM 來說可能太復雜。另一方面，企業(yè)、行業(yè)的海量異構數(shù)據(jù)，都放到上下文窗口中也不現(xiàn)實。而大模型和 AI 數(shù)據(jù)庫結合，給生成式 AI 系統(tǒng)注入專業(yè)、精準和實時的信息，大幅降低了幻覺，并提高了系統(tǒng)的實

原文鏈接：長文本殺不死RAG：SQL+向量驅(qū)動大模型和大數(shù)據(jù)新范式，MyScale AI數(shù)據(jù)庫正式開源