北大王選所：讓多模態(tài)大模型更懂人類在做什么｜ECCV 2024

AIGC動態(tài)歡迎閱讀

原標(biāo)題：北大王選所：讓多模態(tài)大模型更懂人類在做什么｜ECCV 2024
關(guān)鍵字：類別,提示,人物,特征,模型
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

北京大學(xué)王選計算機(jī)研究所雷廷投稿量子位 | 公眾號 QbitAI只用提示詞，多模態(tài)大模型就能更懂場景中的人物關(guān)系了。
北京大學(xué)最新提出多模態(tài)提示學(xué)習(xí)（Conditional Multi-Modal Prompt, CMMP）方法，利用提示詞工程技術(shù)教會多模態(tài)大模型理解區(qū)域級的人物交互關(guān)系。
在這個過程中，最難的部分在于教會模型識別未見過的人物交互類型。
要知道，大多數(shù)現(xiàn)有研究都集中在封閉環(huán)境，一旦變成更接近現(xiàn)實的開放環(huán)境，模型就懵逼了！
比如下圖，先前的檢測器在平衡已見和未見類別時遇到了困難，導(dǎo)致調(diào)和平均值較低，并且在未見類別上的表現(xiàn)較差。
相比之下，CMMP方法有效解決了這一平衡問題，大幅提升了性能，并為未見類別建立了新的最佳性能。
至于CMMP方法如何解決未見類別，一句話：
在特征提取過程中使用視覺空間線索，幫助識別未見的人物-物體交互概念，并通過條件提示學(xué)習(xí)提高對未見類別的泛化能力。
總之，CMMP方法提供了一種新的范式，可以微調(diào)多模態(tài)大模型，使其具備泛化的區(qū)域級人物交互關(guān)系檢測能力。
以上研究來自北大王選計算機(jī)技術(shù)研究所，相關(guān)論文已被頂會ECCV 2024接收。
零樣本人物交

原文鏈接：北大王選所：讓多模態(tài)大模型更懂人類在做什么｜ECCV 2024