精確指出特定發(fā)生時(shí)間!字節(jié)&復(fù)旦大學(xué)多模態(tài)大模型解讀視頻太香了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:精確指出特定發(fā)生時(shí)間!字節(jié)&復(fù)旦大學(xué)多模態(tài)大模型解讀視頻太香了
關(guān)鍵字:解讀,字節(jié)跳動(dòng),數(shù)據(jù),模型,視頻
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3511字
內(nèi)容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI字節(jié)&復(fù)旦大學(xué)多模態(tài)理解大模型來(lái)了:
可以精確定位到視頻中特定的發(fā)生時(shí)間。
比如在下面這個(gè)視頻中:
狗子轉(zhuǎn)身看鏡頭時(shí)的時(shí)間戳是多少?
什么時(shí)候用爪子推開(kāi)滑板?
在這里,視頻中的寶寶什么時(shí)候推起眼鏡、舒展了一下身體?又是什么時(shí)候翻的書(shū)?
對(duì)于這樣的問(wèn)題,這個(gè)叫做LEGO的模型全都讀得懂,并毫不猶豫給出正確答案。
看起來(lái),有了這些研究成果,以后我們看視頻查資料都要方便一大截咯?
可精確識(shí)別局部信息的多模態(tài)LLM來(lái)了LEGO全稱是一個(gè)語(yǔ)言增強(qiáng)的多模態(tài)grounding模型。
它主要解決的是多模態(tài)LLM跨多種模態(tài)進(jìn)行細(xì)粒度理解的能力,此前業(yè)內(nèi)的成果主要強(qiáng)調(diào)全局信息。
為了實(shí)現(xiàn)該目標(biāo),作者主要先從數(shù)據(jù)集下手,打造了一套用于模型訓(xùn)練的多模式、多粒度問(wèn)答形式數(shù)據(jù)集(即將開(kāi)源)。
該數(shù)據(jù)集的構(gòu)建涉及兩個(gè)關(guān)鍵流程。
一是數(shù)據(jù)集轉(zhuǎn)換(Dataset Conversion)。
在這個(gè)階段,作者的目的是構(gòu)建用于模態(tài)對(duì)齊和細(xì)粒度對(duì)齊的基礎(chǔ)多模態(tài)數(shù)據(jù)集。
由于數(shù)據(jù)集質(zhì)量相對(duì)較低,主要通過(guò)轉(zhuǎn)換公開(kāi)數(shù)據(jù)集獲得。
如下圖上部分所示,他們向GPT-3.5提供任務(wù)描述以
原文鏈接:精確指出特定發(fā)生時(shí)間!字節(jié)&復(fù)旦大學(xué)多模態(tài)大模型解讀視頻太香了
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破