智能體如何像人類一樣“觀看”視頻:顛覆傳統(tǒng)的全新體驗!
視頻問答功能很強(qiáng),還是開源的。
原標(biāo)題:如今的智能體,已經(jīng)像人一樣「瀏覽」視頻了,國內(nèi)就有
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3482字
AI 在視頻內(nèi)容理解中的應(yīng)用
在觀看緊張的電影或比賽時,觀眾常常會產(chǎn)生諸如“那句話在哪一集說的?”或“錯過的進(jìn)球是什么?”等問題。傳統(tǒng)的人力搜索方式效率低下,而 AI 技術(shù)的發(fā)展為解決這一問題提供了新的可能性。英偉達(dá)最新發(fā)布的 NVIDIA AI Blueprint 和開源項目 OmAgent 就是為此而生的工具。
1. NVIDIA AI Blueprint 的功能
NVIDIA AI Blueprint 是一種預(yù)訓(xùn)練的、可自定義的 AI 工作流,旨在幫助開發(fā)者構(gòu)建和部署生成式 AI 應(yīng)用程序。用戶可以選擇視頻片段進(jìn)行內(nèi)容問答,Blueprint 能夠回答關(guān)于發(fā)生時間和對象狀態(tài)的問題。例如,當(dāng)詢問“工人在什么時候掉落了箱子”時,Blueprint 可以提供準(zhǔn)確的時間區(qū)間。然而,關(guān)于細(xì)節(jié)問題,如“誰撿起了掉在地上的箱子”,Blueprint 則可能給出錯誤答案。此外,目前 Blueprint 仍處于早期申請使用階段,存在流量限制和使用不便的問題。
2. OmAgent 的優(yōu)勢
在尋找替代方案的過程中,開發(fā)者發(fā)現(xiàn)了 OmAgent 這一開源智能體框架。OmAgent 支持多模態(tài)智能體系統(tǒng)的快速開發(fā),能夠與各種智能設(shè)備(如智能手機(jī)、智能穿戴設(shè)備和機(jī)器人)兼容。它的設(shè)計架構(gòu)基于圖的工作流編排,支持復(fù)雜的邏輯操作,并且提供音、視、圖、文等多種模態(tài)數(shù)據(jù)的處理能力。
3. OmAgent 的實(shí)際應(yīng)用
OmAgent 通過簡單配置即可在本地環(huán)境中運(yùn)行,用戶可以使用它對視頻進(jìn)行分析和問答。在對大火劇集《雙城之戰(zhàn)》的測試中,OmAgent 能夠準(zhǔn)確回答角色之間的爭執(zhí)和情節(jié)發(fā)展等復(fù)雜問題,展現(xiàn)了其強(qiáng)大的視頻理解能力。此外,OmAgent 還可直接應(yīng)用于硬件設(shè)備,比如提供穿衣搭配推薦的智能體,通過與用戶的多輪溝通給予個性化建議。
總結(jié)
AI 技術(shù)的進(jìn)步正在改變我們與視頻內(nèi)容的互動方式,NVIDIA AI Blueprint 和 OmAgent 為開發(fā)者提供了強(qiáng)大的工具,滿足了日益增長的視頻內(nèi)容理解需求。隨著這些技術(shù)的普及,未來人們將能夠更輕松地獲取和理解視頻信息。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺