StreamBridge – 蘋果聯合復旦推出的端側視頻大語言模型框架
StreamBridge 是蘋果公司與復旦大合開發的前沿視頻大語言模型(Video-LLMs)框架,旨在幫助人工智能系統實時理解直播視頻流。該框架利用內存緩沖區和輪次衰減壓縮策略,支持長時間上下文交互,并采用輕量級激活模型以實現主動響應功能。研究團隊還發布了一個包含約 60 萬個樣本的 Stream-IT 數據集,以增強流式視頻理解的能力。
StreamBridge是什么
StreamBridge 是一款由蘋果公司與復旦大學共同推出的先進端側視頻大語言模型(Video-LLMs)框架,旨在幫助人工智能以實時方式理解直播流視頻。該框架運用內存緩沖區和輪次衰減壓縮策略,支持長上下文的交互。同時,輕量級激活模型的引入使得系統能夠主動響應。為了提升流式視頻理解能力,研究團隊還推出了包含約 60 萬個樣本的 Stream-IT 數據集。測試結果表明,StreamBridge 在多輪實時理解和主動響應方面顯著增強了模型的能力,展現出在流式視頻理解領域的巨大潛力。
StreamBridge的主要功能
- 多輪實時理解:支持長上下文的多輪交互,確保在處理最新視頻片段時能夠保留歷史視覺和對話信息。
- 主動響應:模型能夠主動監控視頻流,及時提供反饋,而不需要明確的指令。
- 靈活集成:可無縫融入現有的視頻大語言模型中,無需進行大規模修改。
- 數據支持:提供大規模的流式視頻理解數據集Stream-IT,包含約60萬個樣本,支持多樣的指令格式,便于模型的訓練和優化。
StreamBridge的技術原理
- 記憶緩沖區:該系統負責存儲和檢索視頻幀的嵌入信息,以支持多輪交互。每個新的視頻幀被編碼并添加到緩沖區中。當收到用戶查詢時,緩沖區內容會被整合成一個單一的輸入嵌入序列,送入語言模型生成響應。
- 輪次衰減壓縮策略:在生成響應之前,如果輸入嵌入的長度超過預設的最大值,模型將從最早的對話輪次開始,逐幀合并視覺標記,直到總長度低于最大限制。合并操作通過平均池化實現,確保最近的視覺上下文得以保留。
- 輕量級激活模型:該模型是一個的輕量級多模態大語言模型(MLLM),與主視頻大語言模型并行運行。激活模型接受當前幀(以及用戶查詢和前幾幀的可選輸入),并輸出一個二進制信號,指示主模型是否應生成響應。通過得分頭進行二分類(是否響應),在訓練過程中引入可學習的激活標記<ACT>,以監督激活時機。
- Stream-IT數據集:該數據集從大規模視頻字幕語料庫中篩選出語義相關的短片段,構建多輪問答序列,以模擬真實用戶的實時交互。數據集包含約60萬個樣本,支持多種任務格式,如密集視頻字幕、順序步驟識別和基于視頻的問題回答等。
StreamBridge的項目地址
- arXiv技術論文:https://arxiv.org/pdf/2505.05467
StreamBridge的應用場景
- 實時視頻交互:提升視頻會議、在線教育等場景中的互動體驗。
- 自動駕駛輔助:實時處理路況視頻,以輔助自動駕駛決策。
- 智能監控:實時分析監控視頻,快速識別異常行為。
- 機器人視覺:幫助機器人實時理解周圍環境,實現自然的交互。
- 內容創作:輔助視頻創作和編輯,提供實時內容分析。
常見問題
- StreamBridge能夠支持哪些類型的視頻流? StreamBridge可以處理各類直播視頻流,適用于實時交互場景。
- 如何訓練StreamBridge模型? 可以使用Stream-IT數據集進行訓練,支持多樣化的指令格式。
- StreamBridge的集成難度如何? StreamBridge設計為易于集成,可以無縫加入現有的視頻大語言模型中。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...