WorldSense – 小紅書聯合上海交大推出的多模態全面評測新基準
WorldSense是什么
WorldSense是由小紅書與上海交通大合推出的一款基準測試工具,旨在評估多模態大型語言模型(MLLMs)在現實世界場景中對視覺、聽覺及文本輸入的綜合理解能力。該項目包含1662個音頻與視頻同步的多樣化視頻,覆蓋8個主要領域及67個細分子類別,并提供3172個多項選擇問答對,涉及26種不同的認知任務。WorldSense特別強調音頻與視頻信息的密切結合,所有問題均需通過這兩種模態的信息來得出準確答案。其高質量的標注由80名專家標注員手動完成,經過多輪驗證,以確保標注的準確性和可靠性。
WorldSense的主要功能
- 多模態協作評估:該系統重點考察音頻和視頻信息的緊密結合,設計出需要綜合視覺及聽覺信息才能正確回答的問題,以嚴格測試模型在多模態輸入環境下的理解能力。
- 多樣化視頻與任務覆蓋:WorldSense包含1662個音頻-視頻同步的多樣化視頻,涵蓋8個主要領域及67個細分子類別,并提供3172個多項選擇問答對,涉及26種不同的認知任務。
- 高質量標注與驗證:所有問答對均由80名專家標注員進行手動標注,并經過多輪驗證,包括人工審核和自動模型驗證,以確保標注的準確性和可靠性。
WorldSense的技術原理
- 多模態輸入處理:WorldSense要求模型同時處理視頻、音頻和文本輸入,確保模型能夠捕捉到視覺與聽覺信息之間的關聯,從而更全面地理解場景。這種多模態輸入處理能力是評估模型是否能夠像人類一樣應對復雜環境的關鍵。
- 任務設計與標注:基于精心設計的問答對,確保每個問題都需要多模態信息的融合才能得出正確答案。標注過程經過多輪人工審核及自動驗證,確保問題的合理性與標注的準確性。
- 多模態融合與推理:通過多樣化的任務設計,評估模型在不同層次上的多模態理解能力,包括基本感知(如音頻與視覺元素的檢測)、理解(多模態關系的把握)和推理(如因果推斷和抽象思維)。這種多層次的評估方法能夠全面測試模型的多模態融合與推理能力。
- 數據收集與篩選:WorldSense的數據收集過程涉及從大規模視頻數據集中篩選出具有強音頻-視覺關聯的視頻片段,并通過人工審核確保視頻內容的質量和多樣性,從而確保基準測試覆蓋廣泛的現實世界場景。
WorldSense的項目地址
- 項目官網:https://jaaackhongggg.github.io/WorldSense/
- GitHub倉庫:https://github.com/JaaackHongggg/WorldSense
- HuggingFace模型庫:https://huggingface.co/datasets/honglyhly/WorldSense
- arXiv技術論文:https://arxiv.org/pdf/2502.04326
WorldSense的應用場景
- 自動駕駛:幫助自動駕駛系統更好地解讀交通環境中的視覺與聽覺信息,從而提升決策的準確性。
- 智能教育:評估和優化教育工具對教學視頻內容的理解能力,以支持個性化學習。
- 智能監控:增強監控系統對視頻中視覺和音頻信息的感知與理解能力,提高安全檢測效果。
- 智能客服:評估智能客服系統對用戶語音、表情和文本輸入的理解能力,以優化交互體驗。
- 內容創作:幫助多媒體內容創作和分析系統更智能地理解視頻內容,從而提高創作和推薦的效率。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...