首個視頻思維鏈推理框架Video-of-Thought來了:像人一樣從感知到認知全面推理視頻
AIGC動態(tài)歡迎閱讀
原標題:首個視頻思維鏈推理框架Video-of-Thought來了:像人一樣從感知到認知全面推理視頻
關(guān)鍵字:視頻,認知,模型,答案,內(nèi)容
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者來自于新加坡國立大學(xué)、南洋理工大學(xué)以及哈工深。其中,費豪的研究方向為多模態(tài)學(xué)習(xí)、多模態(tài)大語言模型。吳勝瓊,新加坡國立大學(xué)博士生,主要研究方向為多模態(tài)大語言模型。吉煒的主要研究方向為多模態(tài)學(xué)習(xí),多模態(tài)內(nèi)容生成。張含望教授的研究興趣包含計算機視覺、因果推斷。張梅山教授的研究方向包括代碼智能,自然語言處理,多模態(tài)生成與理解。Mong-Li Lee和Wynne Hsu教授的研究方向為社交媒體分析,協(xié)同機器學(xué)習(xí)等等。
最近,新加坡國立大合南洋理工大學(xué)和哈工深的研究人員共同提出了一個全新的視頻推理框架,這也是首次大模型推理社區(qū)提出的面向視頻的思維鏈框架(Video-of-Thought, VoT)。視頻思維鏈VoT讓視頻多模態(tài)大語言模型在復(fù)雜視頻的理解和推理性
原文鏈接:首個視頻思維鏈推理框架Video-of-Thought來了:像人一樣從感知到認知全面推理視頻
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺