国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

全球首個「視頻教學」基準！南洋理工、CMU發布Video-MMMU

原標題：全球首個「視頻教學」基準！南洋理工、CMU發布Video-MMMU
文章來源：新智元
內容字數：6488字

多模態大模型的視頻學習能力評測：Video-MMMU數據集

新加坡南洋理工大學S-Lab團隊推出的Video-MMMU數據集，是全球首個評測多模態大模型（LMMs）從視頻中獲取和應用知識能力的數據集。該數據集旨在探索AI能否像人類一樣，通過觀看視頻學習新知識并解決實際問題，為AI邁向通用人工智能（AGI）提供新的視角。

1. 核心問題與方法：Video-MMMU的核心問題是：AI能否通過觀看視頻學習并應用知識？它將學習過程分為三個認知階段：感知（Perception）、理解（Comprehension）和運用（Adaptation）。通過這三個階段的評估，全面考察模型的知識獲取能力。數據集包含300個高質量的大學水平教育視頻和900個問答對，涵蓋六大專業領域（藝術、商業、醫學、科學、人文、工程）的30個學科。

2. 數據集設計與問題類型：Video-MMMU的數據集設計精巧，問題類型針對不同認知階段：感知階段側重于ASR（自動語音識別）和OCR（光學字符識別）；理解階段關注概念理解和解題方法理解；運用階段則考察案例分析和解題方法運用。問題平均長度達75.7字，比其他基準更高，體現了其專業性和挑戰性。

3. 知識增益（?knowledge）指標：Video-MMMU創新性地引入了“知識增益”指標，該指標不僅關注模型的絕對能力，更關注模型觀看視頻前后在應用階段的表現提升。它衡量模型是否能通過觀看視頻解決原本無法解答的問題，這比單純的解題能力更能反映模型的學習能力。

4. 實驗結果與分析：實驗結果顯示，人類專家在所有階段的表現都優于AI模型，即使是表現最好的模型也明顯落后于人類。運用階段是知識獲取的最大瓶頸，模型得分普遍低于50%，表明模型在知識遷移和應用方面存在明顯不足。此外，一些模型在觀看視頻后表現反而下降，顯示出其學習能力和穩定性的問題。

5. 模型的學習能力局限性：實驗結果揭示了當前LMMs在視頻學習中的兩大挑戰：學習能力有限，難以高效獲取和應用新知識；模型回答不穩定，觀看視頻后反而可能出錯。錯誤分析表明，模型在方法選擇、方法運用和問題誤讀方面都存在錯誤，其中方法運用錯誤最為常見。

6. 結論：Video-MMMU數據集為評估和改進LMMs的視頻知識獲取能力提供了全新視角。研究結果表明，提升模型從視頻中獲取知識的能力，以及提高模型的學習效率和穩定性，是邁向AGI的重要一步。該數據集的發布，為多模態大模型的學習能力研究提供了寶貴的資源。