<s id="uuoke"></s>

StreamBridge

AI工具4個月前更新 AI工具集

8 0 0

StreamBridge – 蘋果聯合復旦推出的端側視頻大語言模型框架

StreamBridge

StreamBridge 是蘋果公司與復旦大合開發的前沿視頻大語言模型（Video-LLMs）框架，旨在幫助人工智能系統實時理解直播視頻流。該框架利用內存緩沖區和輪次衰減壓縮策略，支持長時間上下文交互，并采用輕量級激活模型以實現主動響應功能。研究團隊還發布了一個包含約 60 萬個樣本的 Stream-IT 數據集，以增強流式視頻理解的能力。

StreamBridge是什么

StreamBridge 是一款由蘋果公司與復旦大學共同推出的先進端側視頻大語言模型（Video-LLMs）框架，旨在幫助人工智能以實時方式理解直播流視頻。該框架運用內存緩沖區和輪次衰減壓縮策略，支持長上下文的交互。同時，輕量級激活模型的引入使得系統能夠主動響應。為了提升流式視頻理解能力，研究團隊還推出了包含約 60 萬個樣本的 Stream-IT 數據集。測試結果表明，StreamBridge 在多輪實時理解和主動響應方面顯著增強了模型的能力，展現出在流式視頻理解領域的巨大潛力。

StreamBridge的主要功能

多輪實時理解：支持長上下文的多輪交互，確保在處理最新視頻片段時能夠保留歷史視覺和對話信息。
主動響應：模型能夠主動監控視頻流，及時提供反饋，而不需要明確的指令。
靈活集成：可無縫融入現有的視頻大語言模型中，無需進行大規模修改。
數據支持：提供大規模的流式視頻理解數據集Stream-IT，包含約60萬個樣本，支持多樣的指令格式，便于模型的訓練和優化。

StreamBridge的技術原理

記憶緩沖區：該系統負責存儲和檢索視頻幀的嵌入信息，以支持多輪交互。每個新的視頻幀被編碼并添加到緩沖區中。當收到用戶查詢時，緩沖區內容會被整合成一個單一的輸入嵌入序列，送入語言模型生成響應。
輪次衰減壓縮策略：在生成響應之前，如果輸入嵌入的長度超過預設的最大值，模型將從最早的對話輪次開始，逐幀合并視覺標記，直到總長度低于最大限制。合并操作通過平均池化實現，確保最近的視覺上下文得以保留。
輕量級激活模型：該模型是一個的輕量級多模態大語言模型（MLLM），與主視頻大語言模型并行運行。激活模型接受當前幀（以及用戶查詢和前幾幀的可選輸入），并輸出一個二進制信號，指示主模型是否應生成響應。通過得分頭進行二分類（是否響應），在訓練過程中引入可學習的激活標記<ACT>，以監督激活時機。
Stream-IT數據集：該數據集從大規模視頻字幕語料庫中篩選出語義相關的短片段，構建多輪問答序列，以模擬真實用戶的實時交互。數據集包含約60萬個樣本，支持多種任務格式，如密集視頻字幕、順序步驟識別和基于視頻的問題回答等。