AI解讀視頻張口就來?這種「幻覺」難題Vista-LLaMA給解決了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:AI解讀視頻張口就來?這種「幻覺」難題Vista-LLaMA給解決了
關(guān)鍵字:字節(jié)跳動(dòng),視頻,內(nèi)容,視覺,語言
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5397字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部Vista-LLaMA 在處理長視頻內(nèi)容方面的顯著優(yōu)勢(shì),為視頻分析領(lǐng)域帶來了新的解決框架。近年來,大型語言模型如 GPT、GLM 和 LLaMA 等在自然語言處理領(lǐng)域取得了顯著進(jìn)展,基于深度學(xué)習(xí)技術(shù)能夠理解和生成復(fù)雜的文本內(nèi)容。然而,將這些能力擴(kuò)展到視頻內(nèi)容理解領(lǐng)域則是一個(gè)全新的挑戰(zhàn) —— 視頻不僅包含豐富多變的視覺信息,還涉及時(shí)間序列的動(dòng)態(tài)變化,這使得大語言模型從視頻中提取信息變得更為復(fù)雜。
面對(duì)這一挑戰(zhàn),字節(jié)跳動(dòng)聯(lián)合浙江大學(xué)提出了能夠輸出可靠視頻描述的多模態(tài)大語言模型 Vista-LLaMA。Vista-LLaMA 專門針對(duì)視頻內(nèi)容的復(fù)雜性設(shè)計(jì),能夠有效地將視頻幀轉(zhuǎn)換為準(zhǔn)確的語言描述,從而極大地提高了視頻內(nèi)容分析和生成的質(zhì)量。論文主頁:https://jinxxian.github.io/Vista-LLaMA/圖 1
技術(shù)創(chuàng)新路徑
現(xiàn)有多模態(tài)視覺與語言模型在處理視頻內(nèi)容時(shí),通常將視頻幀轉(zhuǎn)化為一系列的視覺 token,并與語言 token 結(jié)合以生成文本。然而,隨著生成文本長度的增加,視頻內(nèi)容的影響往往逐漸減弱,導(dǎo)致生成的文本越來越多地偏離原視頻內(nèi)容,產(chǎn)
原文鏈接:AI解讀視頻張口就來?這種「幻覺」難題Vista-LLaMA給解決了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)