北大視頻大模型新SOTA,搞笑抖音視頻AI秒懂笑點|開源
AIGC動態(tài)歡迎閱讀
原標(biāo)題:北大視頻大模型新SOTA,搞笑抖音視頻AI秒懂笑點|開源
文章來源:量子位
內(nèi)容字?jǐn)?shù):3357字
內(nèi)容摘要:夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAIAI能理解搞笑視頻笑點在哪里了。AI回答:這個視頻之所以搞笑,在于一個小寶寶正坐在床上努力讀書,但他顯然還不會真正讀書。他只是不停地指著書頁上的各處,而攝影者則在背后笑他。小寶寶的這種嘗試很有趣,因為他在嘗試閱讀一本對他而言過大的書,也看不懂里面的文字。北大等團隊開源視覺語言大模型Video-LLaVA,將圖像和視頻表示對齊到統(tǒng)一的視覺特征空間,在13個圖片和視頻基準(zhǔn)上達(dá)到先進的性能。值得注意的是,Video-LLaVA在訓(xùn)練過程中沒有使用成對的視頻和圖片數(shù)據(jù),但在訓(xùn)練后,LLM令人驚訝地展現(xiàn)出同時理解圖片和視頻的能力。如下圖所示,Video-LLaVA成功地識別出女神像的圖片是近景且細(xì)膩的,而視頻描述了女神像的多個角度,表明它們來自同一個地方。在投影之前對齊圖像和視頻表示這項工作具體貢獻如下:Video-LLaVA解決了在視覺-語…
原文鏈接:點此閱讀原文:北大視頻大模型新SOTA,搞笑抖音視頻AI秒懂笑點|開源
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...