首個視頻思維鏈推理框架Video-of-Thought來了：像人一樣從感知到認知全面推理視頻

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：首個視頻思維鏈推理框架Video-of-Thought來了：像人一樣從感知到認知全面推理視頻
關(guān)鍵字：視頻,認知,模型,答案,內(nèi)容
文章來源：機器之心
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文作者來自于新加坡國立大學(xué)、南洋理工大學(xué)以及哈工深。其中，費豪的研究方向為多模態(tài)學(xué)習(xí)、多模態(tài)大語言模型。吳勝瓊，新加坡國立大學(xué)博士生，主要研究方向為多模態(tài)大語言模型。吉煒的主要研究方向為多模態(tài)學(xué)習(xí)，多模態(tài)內(nèi)容生成。張含望教授的研究興趣包含計算機視覺、因果推斷。張梅山教授的研究方向包括代碼智能，自然語言處理，多模態(tài)生成與理解。Mong-Li Lee和Wynne Hsu教授的研究方向為社交媒體分析，協(xié)同機器學(xué)習(xí)等等。
最近，新加坡國立大合南洋理工大學(xué)和哈工深的研究人員共同提出了一個全新的視頻推理框架，這也是首次大模型推理社區(qū)提出的面向視頻的思維鏈框架（Video-of-Thought， VoT）。視頻思維鏈VoT讓視頻多模態(tài)大語言模型在復(fù)雜視頻的理解和推理性

原文鏈接：首個視頻思維鏈推理框架Video-of-Thought來了：像人一樣從感知到認知全面推理視頻