浙大和阿里巴巴達摩院聯合提出一個圖文交織的多模態知識語料。
原標題:給大模型制作圖文并茂的教科書: 從2.5年的教學視頻里挖掘多模態語料
文章來源:機器之心
內容字數:7912字
機器之心AIxiv專欄:高質量“無監督”數據重燃Scaling Law
機器之心AIxiv專欄長期關注AI前沿技術,近期報道了浙江大學和阿里巴巴達摩院聯合提出的一個圖文交織的多模態知識語料研究,該研究認為高質量的“無監督”數據,特別是教科書級別的知識語料,才是Scaling Law的關鍵。
1. 背景與動機:現有多模態預訓練語料的不足
當前VLMs預訓練主要依賴圖像-文本對和圖文交織語料。然而,現有圖文交織語料,例如MMC4和OBELICS,大多來自網頁和文檔,存在文本與圖像關系松散、圖像序列缺乏邏輯連貫性、知識密度低等問題。因此,構建高質量、教科書級別的圖文交織數據集至關重要。
2. 方法:利用教學視頻構建高質量知識語料
該研究利用互聯網上豐富的教學視頻資源,提出一個Video-to-Textbook Pipeline,將教學視頻轉化為高質量的圖文交織教科書式語料。具體步驟如下:
知識分類體系構建與視頻收集:構建了四層知識分類體系(學科、課程、子課程、知識點),并利用LLM輔助收集和過濾教學視頻。
Video-to-Textbook Pipeline:包含三個層級:
- Long Video-Level:音頻提取與轉錄(使用Whisper模型并經LLM優化)、視頻質量評估(LLM輔助過濾低質量視頻)。
- Video Clip-Level:視頻分割、視覺知識和文本知識匹配(VideoLlama2生成caption并計算相似度)。
- Keyframe-Level:關鍵幀檢測(SSIM)、OCR文本提取(InternVL)。
3. 數據集統計與分析
最終構建了包含22000課時(兩年半)教學視頻的圖文交織數據集,包含6.5M關鍵幀、258M ASR tokens和500M OCR tokens,共610k個樣本。樣本內圖像相似度顯著高于現有數據集,體現了更高的知識密度和連貫性。
4. 實驗與分析:顯著提升VLMs性能
實驗結果表明,基于該數據集進行持續預訓練后,LLaVA-1.5和Idefics-8B模型在多個基準測試上性能顯著提升,尤其在知識導向和推理相關基準上優勢明顯。“作弊測試”顯示模型上下文感知能力增強。這些結果證明了該數據集的高質量和有效性。
5. 總結與展望
該研究提出了一種新的多模態教科書式語料構建方法,有效提升了VLMs的知識水平和推理能力,為Scaling Law的研究提供了新的思路。未來可以探索利用該語料實現任意模態的連續生成,構建更好的世界模型。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺