視頻場景圖生成任務(wù)新SOTA!中山大學(xué)提出全新時(shí)空知識嵌入框架,登頂刊TIP'24

AIGC動態(tài)歡迎閱讀
原標(biāo)題:視頻場景圖生成任務(wù)新SOTA!中山大學(xué)提出全新時(shí)空知識嵌入框架,登頂刊TIP'24
關(guān)鍵字:視覺,關(guān)系,知識,表示,時(shí)空
文章來源:新智元
內(nèi)容字?jǐn)?shù):5320字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS 好困
【新智元導(dǎo)讀】STKET框架將先驗(yàn)時(shí)空知識納入多頭交叉注意機(jī)制中,從而可以學(xué)習(xí)到更多有代表性的視覺關(guān)系表示,在視頻圖生成基準(zhǔn)上大幅領(lǐng)先其他算法。視頻場景圖生成(VidSGG)旨在識別視覺場景中的對象并推斷它們之間的視覺關(guān)系。
該任務(wù)不僅需要全面了解分散在整個場景中的每個對象,還需要深入研究它們在時(shí)序上的和交互。
最近,來自中山大學(xué)的研究人員在人工智能頂級期刊IEEE T-IP上發(fā)表了一篇論文,進(jìn)行了相關(guān)任務(wù)的探索并發(fā)現(xiàn):每對物體組合及其它們之間的關(guān)系在每個圖像內(nèi)具有空間共現(xiàn)相關(guān)性,并且在不同圖像之間具有時(shí)間一致性/轉(zhuǎn)換相關(guān)性。
論文鏈接:https://arxiv.org/abs/2309.13237
基于這些先驗(yàn)知識,研究人員提出了一種基于時(shí)空知識嵌入的Transformer(STKET)將先驗(yàn)時(shí)空知識納入多頭交叉注意機(jī)制中,從而學(xué)習(xí)更多有代表性的視覺關(guān)系表示。
具體來說,首先以統(tǒng)計(jì)方式學(xué)習(xí)空間共現(xiàn)和時(shí)間轉(zhuǎn)換相關(guān)性;然后,設(shè)計(jì)了時(shí)空知識嵌入層對視覺表示與知識之間的交互進(jìn)行充分探索,分別生成空間和時(shí)間知識嵌入的視覺關(guān)系表示;最后,作者聚合這些特征,以
原文鏈接:視頻場景圖生成任務(wù)新SOTA!中山大學(xué)提出全新時(shí)空知識嵌入框架,登頂刊TIP'24
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號