精確指出特定發生時間！字節&復旦大學多模態大模型解讀視頻太香了

AIGC動態2年前 (2024)發布量子位

精確指出特定事件發生時間！字節&復旦大學多模態大模型解讀視頻太香了

AIGC動態歡迎閱讀

原標題：精確指出特定發生時間！字節&復旦大學多模態大模型解讀視頻太香了
關鍵字：解讀,字節跳動,數據,模型,視頻
文章來源：量子位
內容字數：3511字

內容摘要：

豐色發自凹非寺量子位 | 公眾號 QbitAI字節&復旦大學多模態理解大模型來了：
可以精確定位到視頻中特定的發生時間。
比如在下面這個視頻中：
狗子轉身看鏡頭時的時間戳是多少？
什么時候用爪子推開滑板？
在這里，視頻中的寶寶什么時候推起眼鏡、舒展了一下身體？又是什么時候翻的書？
對于這樣的問題，這個叫做LEGO的模型全都讀得懂，并毫不猶豫給出正確答案。
看起來，有了這些研究成果，以后我們看視頻查資料都要方便一大截咯？
可精確識別局部信息的多模態LLM來了LEGO全稱是一個語言增強的多模態grounding模型。
它主要解決的是多模態LLM跨多種模態進行細粒度理解的能力，此前業內的成果主要強調全局信息。
為了實現該目標，作者主要先從數據集下手，打造了一套用于模型訓練的多模式、多粒度問答形式數據集（即將開源）。
該數據集的構建涉及兩個關鍵流程。
一是數據集轉換（Dataset Conversion）。
在這個階段，作者的目的是構建用于模態對齊和細粒度對齊的基礎多模態數據集。
由于數據集質量相對較低，主要通過轉換公開數據集獲得。
如下圖上部分所示，他們向GPT-3.5提供任務描述以

原文鏈接：精確指出特定發生時間！字節&復旦大學多模態大模型解讀視頻太香了