原標題:全球首個「視頻教學」基準!南洋理工、CMU發布Video-MMMU
文章來源:新智元
內容字數:6488字
多模態大模型的視頻學習能力評測:Video-MMMU數據集
新加坡南洋理工大學S-Lab團隊推出的Video-MMMU數據集,是全球首個評測多模態大模型(LMMs)從視頻中獲取和應用知識能力的數據集。該數據集旨在探索AI能否像人類一樣,通過觀看視頻學習新知識并解決實際問題,為AI邁向通用人工智能(AGI)提供新的視角。
1. 核心問題與方法:Video-MMMU的核心問題是:AI能否通過觀看視頻學習并應用知識?它將學習過程分為三個認知階段:感知(Perception)、理解(Comprehension)和運用(Adaptation)。通過這三個階段的評估,全面考察模型的知識獲取能力。 數據集包含300個高質量的大學水平教育視頻和900個問答對,涵蓋六大專業領域(藝術、商業、醫學、科學、人文、工程)的30個學科。
2. 數據集設計與問題類型:Video-MMMU的數據集設計精巧,問題類型針對不同認知階段:感知階段側重于ASR(自動語音識別)和OCR(光學字符識別);理解階段關注概念理解和解題方法理解;運用階段則考察案例分析和解題方法運用。 問題平均長度達75.7字,比其他基準更高,體現了其專業性和挑戰性。
3. 知識增益(?knowledge)指標:Video-MMMU創新性地引入了“知識增益”指標,該指標不僅關注模型的絕對能力,更關注模型觀看視頻前后在應用階段的表現提升。 它衡量模型是否能通過觀看視頻解決原本無法解答的問題,這比單純的解題能力更能反映模型的學習能力。
4. 實驗結果與分析:實驗結果顯示,人類專家在所有階段的表現都優于AI模型,即使是表現最好的模型也明顯落后于人類。 運用階段是知識獲取的最大瓶頸,模型得分普遍低于50%,表明模型在知識遷移和應用方面存在明顯不足。 此外,一些模型在觀看視頻后表現反而下降,顯示出其學習能力和穩定性的問題。
5. 模型的學習能力局限性:實驗結果揭示了當前LMMs在視頻學習中的兩大挑戰:學習能力有限,難以高效獲取和應用新知識;模型回答不穩定,觀看視頻后反而可能出錯。 錯誤分析表明,模型在方法選擇、方法運用和問題誤讀方面都存在錯誤,其中方法運用錯誤最為常見。
6. 結論:Video-MMMU數據集為評估和改進LMMs的視頻知識獲取能力提供了全新視角。 研究結果表明,提升模型從視頻中獲取知識的能力,以及提高模型的學習效率和穩定性,是邁向AGI的重要一步。 該數據集的發布,為多模態大模型的學習能力研究提供了寶貴的資源。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。