Infinity-MM是智源研究院推出的一個規模龐大的多模態指令數據集,擁有4300萬條樣本,總數據量達到10TB。經過嚴格的質量篩選與去重,Infinity-MM保證了數據的高質量與多樣性,這為提升開源視覺-語言模型(VLMs)的性能提供了堅實基礎。同時,智源還開發了基于開源VLMs的合成數據生成技術,進一步擴展了數據集的規模和多樣性。這一數據集支持智源成功訓練了一個20億參數的多模態模型Aquila-VL-2B,并在多個基準測試中取得了卓越的成績。
Infinity-MM是什么
Infinity-MM是智源研究院推出的一個千萬級多模態指令數據集,包含4300萬條樣本,數據量高達10TB。數據集經過嚴格的質量過濾和去重,確保了數據的高質量和多樣性,旨在提升開源視覺-語言模型(VLMs)的性能。智源還推出了基于開源VLMs的合成數據生成方法,進一步擴展了數據集的規模和多樣性。基于Infinity-MM,智源成功訓練了20億參數的多模態模型Aquila-VL-2B,在同規模模型中取得了最先進的性能。
Infinity-MM的主要功能
- 提升開源模型性能:Infinity-MM通過提供大規模和高質量的指令數據,顯著提升開源視覺-語言模型(VLMs)的性能,使其接近或達到閉源模型的水平。
- 數據集構建:該數據集包含4300萬條經過嚴格篩選和去重的多模態樣本,涵蓋視覺問答、文字識別、文檔分析、數學推理等多種類型。
- 合成數據生成:基于開源VLMs和詳細的圖像注釋,生成與圖像內容緊密相關的多樣化指令,擴充數據集的規模和多樣性。
- 模型訓練與評估:Infinity-MM數據集被用于訓練20億參數的VLM模型Aquila-VL-2B,該模型在多個基準測試中展現了卓越的性能。
- 推動多模態研究:基于提供的大規模高質量數據集,促進多模態AI領域的研究和應用發展。
Infinity-MM的技術原理
- 數據收集與預處理:Infinity-MM的數據源自多個公開數據集,經過去重和質量過濾,確保數據集的高質量和多樣性。
- 合成數據生成方法:
- 圖像和指令標記系統:利用開源識別模型(如RAM++)對圖片進行自動標注,提取關鍵信息,形成圖像的語義基礎。
- 指令標簽體系:設計了一個指令標簽體系,涵蓋不同層次和種類的指令。
- 圖片與指令標簽對應關系建立:統計圖片標簽與指令標簽之間的對應關系,快速檢索匹配的指令任務標簽。
- 問題生成與過濾:指示模型根據圖片和指令類型生成具體問題,并進行合理性判斷。
- 答案生成與過濾:在生成問題后,進一步生成相應的指令回答,并嚴格過濾以確保與圖片內容或任務的匹配性。
- 分階段訓練策略:Aquila-VL-2B模型采用分階段訓練方法,逐步提升模型對視覺信息的理解和處理能力。
- 多模態架構:Aquila-VL-2B模型基于LLaVA-OneVision架構,結合文本塔(Qwen2.5-1.5B-instruct)和視覺塔(Siglip400m)。
- 訓練效率提升:智源自研的FlagScale框架對模型訓練進行適配,提高訓練效率,達到了原版基于DeepSpeed訓練代碼的1.7倍。
Infinity-MM的項目地址
- HuggingFace模型庫:https://huggingface.co/datasets/BAAI/Infinity-MM
- arXiv技術論文:https://arxiv.org/pdf/2410.18558
Infinity-MM的應用場景
- 視覺問答(Visual Question Answering, VQA):基于圖像和相關問題的數據對,訓練模型理解并回答關于圖像內容的問題。
- 圖像字幕生成(Image Captioning):為圖像生成描述性文本,廣泛應用于社交媒體、內容管理和圖像檢索等領域。
- 文檔理解和分析(Document Understanding and Analysis):提取和理解文檔中的視覺和文本信息,適用于自動化辦公、智能文檔處理和信息提取。
- 數學和邏輯推理(Mathematical and Logical Reasoning):訓練模型解決數學問題和邏輯推理任務,對教育技術、自動化測試和智能輔導系統非常有用。
- 多模態交互系統(Multimodal Interaction Systems):結合視覺和語言信息,提高人機交互的自然性和效率,適用于智能助手和客戶服務機器人。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...