AIGC動態歡迎閱讀
原標題:視頻場景圖生成任務新SOTA!中山大學提出全新時空知識嵌入框架,登頂刊TIP'24
關鍵字:視覺,關系,知識,表示,時空
文章來源:新智元
內容字數:5320字
內容摘要:
新智元報道編輯:LRS 好困
【新智元導讀】STKET框架將先驗時空知識納入多頭交叉注意機制中,從而可以學習到更多有代表性的視覺關系表示,在視頻圖生成基準上大幅領先其他算法。視頻場景圖生成(VidSGG)旨在識別視覺場景中的對象并推斷它們之間的視覺關系。
該任務不僅需要全面了解分散在整個場景中的每個對象,還需要深入研究它們在時序上的和交互。
最近,來自中山大學的研究人員在人工智能頂級期刊IEEE T-IP上發表了一篇論文,進行了相關任務的探索并發現:每對物體組合及其它們之間的關系在每個圖像內具有空間共現相關性,并且在不同圖像之間具有時間一致性/轉換相關性。
論文鏈接:https://arxiv.org/abs/2309.13237
基于這些先驗知識,研究人員提出了一種基于時空知識嵌入的Transformer(STKET)將先驗時空知識納入多頭交叉注意機制中,從而學習更多有代表性的視覺關系表示。
具體來說,首先以統計方式學習空間共現和時間轉換相關性;然后,設計了時空知識嵌入層對視覺表示與知識之間的交互進行充分探索,分別生成空間和時間知識嵌入的視覺關系表示;最后,作者聚合這些特征,以
原文鏈接:視頻場景圖生成任務新SOTA!中山大學提出全新時空知識嵌入框架,登頂刊TIP'24
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...