WorldSense

WorldSense – 小紅書聯合上海交大推出的多模態全面評測新基準

WorldSense是什么

WorldSense是由小紅書與上海交通大合推出的一款基準測試工具，旨在評估多模態大型語言模型（MLLMs）在現實世界場景中對視覺、聽覺及文本輸入的綜合理解能力。該項目包含1662個音頻與視頻同步的多樣化視頻，覆蓋8個主要領域及67個細分子類別，并提供3172個多項選擇問答對，涉及26種不同的認知任務。WorldSense特別強調音頻與視頻信息的密切結合，所有問題均需通過這兩種模態的信息來得出準確答案。其高質量的標注由80名專家標注員手動完成，經過多輪驗證，以確保標注的準確性和可靠性。

WorldSense

WorldSense的主要功能

多模態協作評估：該系統重點考察音頻和視頻信息的緊密結合，設計出需要綜合視覺及聽覺信息才能正確回答的問題，以嚴格測試模型在多模態輸入環境下的理解能力。
多樣化視頻與任務覆蓋：WorldSense包含1662個音頻-視頻同步的多樣化視頻，涵蓋8個主要領域及67個細分子類別，并提供3172個多項選擇問答對，涉及26種不同的認知任務。
高質量標注與驗證：所有問答對均由80名專家標注員進行手動標注，并經過多輪驗證，包括人工審核和自動模型驗證，以確保標注的準確性和可靠性。

WorldSense的技術原理

多模態輸入處理：WorldSense要求模型同時處理視頻、音頻和文本輸入，確保模型能夠捕捉到視覺與聽覺信息之間的關聯，從而更全面地理解場景。這種多模態輸入處理能力是評估模型是否能夠像人類一樣應對復雜環境的關鍵。
任務設計與標注：基于精心設計的問答對，確保每個問題都需要多模態信息的融合才能得出正確答案。標注過程經過多輪人工審核及自動驗證，確保問題的合理性與標注的準確性。
多模態融合與推理：通過多樣化的任務設計，評估模型在不同層次上的多模態理解能力，包括基本感知（如音頻與視覺元素的檢測）、理解（多模態關系的把握）和推理（如因果推斷和抽象思維）。這種多層次的評估方法能夠全面測試模型的多模態融合與推理能力。
數據收集與篩選：WorldSense的數據收集過程涉及從大規模視頻數據集中篩選出具有強音頻-視覺關聯的視頻片段，并通過人工審核確保視頻內容的質量和多樣性，從而確保基準測試覆蓋廣泛的現實世界場景。