視頻問答功能很強,還是開源的。
原標題:如今的智能體,已經像人一樣「瀏覽」視頻了,國內就有
文章來源:機器之心
內容字數:3482字
AI 在視頻內容理解中的應用
在觀看緊張的電影或比賽時,觀眾常常會產生諸如“那句話在哪一集說的?”或“錯過的進球是什么?”等問題。傳統的人力搜索方式效率低下,而 AI 技術的發展為解決這一問題提供了新的可能性。英偉達最新發布的 NVIDIA AI Blueprint 和開源項目 OmAgent 就是為此而生的工具。
1. NVIDIA AI Blueprint 的功能
NVIDIA AI Blueprint 是一種預訓練的、可自定義的 AI 工作流,旨在幫助開發者構建和部署生成式 AI 應用程序。用戶可以選擇視頻片段進行內容問答,Blueprint 能夠回答關于發生時間和對象狀態的問題。例如,當詢問“工人在什么時候掉落了箱子”時,Blueprint 可以提供準確的時間區間。然而,關于細節問題,如“誰撿起了掉在地上的箱子”,Blueprint 則可能給出錯誤答案。此外,目前 Blueprint 仍處于早期申請使用階段,存在流量限制和使用不便的問題。
2. OmAgent 的優勢
在尋找替代方案的過程中,開發者發現了 OmAgent 這一開源智能體框架。OmAgent 支持多模態智能體系統的快速開發,能夠與各種智能設備(如智能手機、智能穿戴設備和機器人)兼容。它的設計架構基于圖的工作流編排,支持復雜的邏輯操作,并且提供音、視、圖、文等多種模態數據的處理能力。
3. OmAgent 的實際應用
OmAgent 通過簡單配置即可在本地環境中運行,用戶可以使用它對視頻進行分析和問答。在對大火劇集《雙城之戰》的測試中,OmAgent 能夠準確回答角色之間的爭執和情節發展等復雜問題,展現了其強大的視頻理解能力。此外,OmAgent 還可直接應用于硬件設備,比如提供穿衣搭配推薦的智能體,通過與用戶的多輪溝通給予個性化建議。
總結
AI 技術的進步正在改變我們與視頻內容的互動方式,NVIDIA AI Blueprint 和 OmAgent 為開發者提供了強大的工具,滿足了日益增長的視頻內容理解需求。隨著這些技術的普及,未來人們將能夠更輕松地獲取和理解視頻信息。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺