開源版SearchGPT來了,兩張3090就可復(fù)現(xiàn),超越Perplexity付費版

AIGC動態(tài)歡迎閱讀
原標題:開源版SearchGPT來了,兩張3090就可復(fù)現(xiàn),超越Perplexity付費版
關(guān)鍵字:騰訊,模型,視覺,圖像,區(qū)域
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
VSA團隊 投稿量子位 | 公眾號 QbitAIOpenAI推出SearchGPT沒幾天,開源版本也來了。
港中文MMLab、上海AI Lab、騰訊團隊簡易實現(xiàn)了Vision Search Assistant,模型設(shè)計簡單,只要兩張RTX3090就可復(fù)現(xiàn)。
Vision Search Assistant(VSA)以視覺語言模型(VLM)為基礎(chǔ),巧妙地將Web搜索能力融入其中,讓VLM內(nèi)部的知識得到實時更新,使其更加靈活和智能。
目前,VSA已經(jīng)針對通用圖像進行了實驗,可視化和量化結(jié)果良好。但不同類別的圖像各具特色,還可以針對不同種類的圖像(比如表格、醫(yī)學(xué)等)構(gòu)建出更為特定的VSA應(yīng)用。
更令人振奮的是,VSA的潛力并不僅限于圖像處理。還有更廣闊的可探索空間,比如視頻、3D模型和聲音等領(lǐng)域,期待能將多模態(tài)研究推向新的高度。
讓VLM處理未見過的圖像和新概念大型語言模型(LLM)的出現(xiàn)讓人類可以利用模型的強大零樣本問答能力來獲取陌生知識。
在此基礎(chǔ)上,檢索增強生成(RAG)等技術(shù)進一步提高了LLM在知識密集型、開放域問答任務(wù)中的表現(xiàn)。然而,VLM在面對未見過的圖像和新概念時,它們往往不能利
原文鏈接:開源版SearchGPT來了,兩張3090就可復(fù)現(xiàn),超越Perplexity付費版
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號