視頻場景圖生成任務新SOTA！中山大學提出全新時空知識嵌入框架，登頂刊TIP'24

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：視頻場景圖生成任務新SOTA！中山大學提出全新時空知識嵌入框架，登頂刊TIP'24
關鍵字：視覺,關系,知識,表示,時空
文章來源：新智元
內容字數：5320字

內容摘要：

新智元報道編輯：LRS 好困
【新智元導讀】STKET框架將先驗時空知識納入多頭交叉注意機制中，從而可以學習到更多有代表性的視覺關系表示，在視頻圖生成基準上大幅領先其他算法。視頻場景圖生成（VidSGG）旨在識別視覺場景中的對象并推斷它們之間的視覺關系。
該任務不僅需要全面了解分散在整個場景中的每個對象，還需要深入研究它們在時序上的和交互。
最近，來自中山大學的研究人員在人工智能頂級期刊IEEE T-IP上發表了一篇論文，進行了相關任務的探索并發現：每對物體組合及其它們之間的關系在每個圖像內具有空間共現相關性，并且在不同圖像之間具有時間一致性/轉換相關性。
論文鏈接：https://arxiv.org/abs/2309.13237
基于這些先驗知識，研究人員提出了一種基于時空知識嵌入的Transformer（STKET）將先驗時空知識納入多頭交叉注意機制中，從而學習更多有代表性的視覺關系表示。
具體來說，首先以統計方式學習空間共現和時間轉換相關性；然后，設計了時空知識嵌入層對視覺表示與知識之間的交互進行充分探索，分別生成空間和時間知識嵌入的視覺關系表示；最后，作者聚合這些特征，以

原文鏈接：視頻場景圖生成任務新SOTA！中山大學提出全新時空知識嵌入框架，登頂刊TIP'24