北大王選所:讓多模態(tài)大模型更懂人類在做什么|ECCV 2024
AIGC動態(tài)歡迎閱讀
原標(biāo)題:北大王選所:讓多模態(tài)大模型更懂人類在做什么|ECCV 2024
關(guān)鍵字:類別,提示,人物,特征,模型
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
北京大學(xué)王選計算機(jī)研究所雷廷 投稿量子位 | 公眾號 QbitAI只用提示詞,多模態(tài)大模型就能更懂場景中的人物關(guān)系了。
北京大學(xué)最新提出多模態(tài)提示學(xué)習(xí)(Conditional Multi-Modal Prompt, CMMP)方法,利用提示詞工程技術(shù)教會多模態(tài)大模型理解區(qū)域級的人物交互關(guān)系。
在這個過程中,最難的部分在于教會模型識別未見過的人物交互類型。
要知道,大多數(shù)現(xiàn)有研究都集中在封閉環(huán)境,一旦變成更接近現(xiàn)實的開放環(huán)境,模型就懵逼了!
比如下圖,先前的檢測器在平衡已見和未見類別時遇到了困難,導(dǎo)致調(diào)和平均值較低,并且在未見類別上的表現(xiàn)較差。
相比之下,CMMP方法有效解決了這一平衡問題,大幅提升了性能,并為未見類別建立了新的最佳性能。
至于CMMP方法如何解決未見類別,一句話:
在特征提取過程中使用視覺空間線索,幫助識別未見的人物-物體交互概念,并通過條件提示學(xué)習(xí)提高對未見類別的泛化能力。
總之,CMMP方法提供了一種新的范式,可以微調(diào)多模態(tài)大模型,使其具備泛化的區(qū)域級人物交互關(guān)系檢測能力。
以上研究來自北大王選計算機(jī)技術(shù)研究所,相關(guān)論文已被頂會ECCV 2024接收。
零樣本人物交
原文鏈接:北大王選所:讓多模態(tài)大模型更懂人類在做什么|ECCV 2024
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: