AIGC動態歡迎閱讀
原標題:吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt,連黑客帝國的都能數清楚
關鍵字:騰訊,提示,模型,視覺,領域
文章來源:量子位
內容字數:2824字
內容摘要:
白交 發自 凹非寺量子位 | 公眾號 QbitAI還記得黑客帝國經典的時間嗎?
IDEA研究院最新檢測模型T-Rex2,可以齊刷刷給全部識別出來~
而面對難倒一眾大模型「吉娃娃or松餅」的難題,它只需被投喂一張吉娃娃的照片,就能瞬間迎刃而解。
此前,也是同樣的團隊,推出了基于視覺提示的檢測模型T-Rex。
如今,他們將視覺和文本提示融合,相互彌補各自的缺陷,實現了更強的目標檢測能力。
并且與多目標跟蹤模型結合后,各種視頻檢測任務也不在話下。
來看新研究到底說了什么。
打通文本和視覺提示在開集目標檢測領域,盡管文本提示受到一定的青睞,但也存在一定的局限性。
比如長尾數據短缺。稀有或者全新的物體類別的數據稀缺可能會削弱其學習效率。還有描述上的局限性,對于一些難以用語言描繪的對象,因受限于無法精確描述,也會削弱效果。
而視覺提示提供了更直觀且直接的對象表示方法,但在捕捉常見對象的概念時效果就會很差。
T-Rex2通過對比學習在單個模型中整合兩種提示,因此接受多種格式的輸入,包括文本提示、視覺提示以及兩者的組合。
在不同場景中,它可以通過在兩種提示方式之間切換來處理。
因此,它大致有三種工
原文鏈接:吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt,連黑客帝國的都能數清楚
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...