開源版SearchGPT來了，兩張3090就可復(fù)現(xiàn)，超越Perplexity付費版

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：開源版SearchGPT來了，兩張3090就可復(fù)現(xiàn)，超越Perplexity付費版
關(guān)鍵字：騰訊,模型,視覺,圖像,區(qū)域
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

VSA團隊投稿量子位 | 公眾號 QbitAIOpenAI推出SearchGPT沒幾天，開源版本也來了。
港中文MMLab、上海AI Lab、騰訊團隊簡易實現(xiàn)了Vision Search Assistant，模型設(shè)計簡單，只要兩張RTX3090就可復(fù)現(xiàn)。
Vision Search Assistant（VSA）以視覺語言模型（VLM）為基礎(chǔ)，巧妙地將Web搜索能力融入其中，讓VLM內(nèi)部的知識得到實時更新，使其更加靈活和智能。
目前，VSA已經(jīng)針對通用圖像進行了實驗，可視化和量化結(jié)果良好。但不同類別的圖像各具特色，還可以針對不同種類的圖像（比如表格、醫(yī)學(xué)等）構(gòu)建出更為特定的VSA應(yīng)用。
更令人振奮的是，VSA的潛力并不僅限于圖像處理。還有更廣闊的可探索空間，比如視頻、3D模型和聲音等領(lǐng)域，期待能將多模態(tài)研究推向新的高度。
讓VLM處理未見過的圖像和新概念大型語言模型（LLM）的出現(xiàn)讓人類可以利用模型的強大零樣本問答能力來獲取陌生知識。
在此基礎(chǔ)上，檢索增強生成（RAG）等技術(shù)進一步提高了LLM在知識密集型、開放域問答任務(wù)中的表現(xiàn)。然而，VLM在面對未見過的圖像和新概念時，它們往往不能利

原文鏈接：開源版SearchGPT來了，兩張3090就可復(fù)現(xiàn)，超越Perplexity付費版