ECCV 2024 | 提升GPT-4V、Gemini檢測(cè)任務(wù)性能,你需要這種提示范式
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ECCV 2024 | 提升GPT-4V、Gemini檢測(cè)任務(wù)性能,你需要這種提示范式
關(guān)鍵字:物體,提示,任務(wù),目標(biāo),沖浪板
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者來自浙江大學(xué)、上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)、悉尼大學(xué)和牛津大學(xué)。作者列表:吳逸璇,王逸舟,唐詩(shī)翔,吳文灝,賀通,Wanli Ouyang,Philip Torr,Jian Wu。其中,共同第一作者吳逸璇是浙江大學(xué)博士生,王逸舟是上海人工智能實(shí)驗(yàn)室科研助理。通訊作者唐詩(shī)翔是香港中文大學(xué)博士后研究員。
多模態(tài)大模型(Multimodal Large Language Models,MLLMs)在不同的任務(wù)中表現(xiàn)出了令人印象深刻的能力,盡管如此,這些模型在檢測(cè)任務(wù)中的潛力仍被低估。在復(fù)雜的目標(biāo)檢測(cè)任務(wù)中需要精確坐標(biāo)時(shí),MLLMs 帶有的幻覺又讓它常常錯(cuò)過目標(biāo)物體或給出不準(zhǔn)確的邊界框。為了讓 MLLMs 賦能檢測(cè),現(xiàn)有的工作不僅需要收集大量高質(zhì)量的指令數(shù)據(jù)
原文鏈接:ECCV 2024 | 提升GPT-4V、Gemini檢測(cè)任務(wù)性能,你需要這種提示范式
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: