劍橋團隊開源:賦能多模態(tài)大模型RAG應(yīng)用,首個預(yù)訓(xùn)練通用多模態(tài)后期交互知識檢索器
AIGC動態(tài)歡迎閱讀
原標(biāo)題:劍橋團隊開源:賦能多模態(tài)大模型RAG應(yīng)用,首個預(yù)訓(xùn)練通用多模態(tài)后期交互知識檢索器
關(guān)鍵字:模型,編碼器,文本,知識,任務(wù)
文章來源:機器之心
內(nèi)容字?jǐn)?shù):7579字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部PreFLMR模型是一個通用的預(yù)訓(xùn)練多模態(tài)知識檢索器,可用于搭建多模態(tài)RAG應(yīng)用。模型基于發(fā)表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并進行了模型改進和 M2KR 上的大規(guī)模預(yù)訓(xùn)練。論文鏈接:https://arxiv.org/abs/2402.08327
DEMO 鏈接:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/
項目主頁鏈接:https://preflmr.github.io/
論文標(biāo)題:PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal
Retrievers
背景
盡管多模態(tài)大模型(例如 GPT4-Vision、Gemini 等)展現(xiàn)出了強大的通用圖文理解能力,它們在回答需要專業(yè)知識的問題時表現(xiàn)依然不盡人意。即使 GPT4-Vision 也無法回答知識密集型問題(圖一上),這成為了很多企業(yè)級落地應(yīng)用的瓶頸
原文鏈接:劍橋團隊開源:賦能多模態(tài)大模型RAG應(yīng)用,首個預(yù)訓(xùn)練通用多模態(tài)后期交互知識檢索器
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺