Infinity-MM

AI工具1年前 (2024)發布 AI工具集

Infinity-MM是智源研究院推出的一個規模龐大的多模態指令數據集，擁有4300萬條樣本，總數據量達到10TB。經過嚴格的質量篩選與去重，Infinity-MM保證了數據的高質量與多樣性，這為提升開源視覺-語言模型（VLMs）的性能提供了堅實基礎。同時，智源還開發了基于開源VLMs的合成數據生成技術，進一步擴展了數據集的規模和多樣性。這一數據集支持智源成功訓練了一個20億參數的多模態模型Aquila-VL-2B，并在多個基準測試中取得了卓越的成績。

Infinity-MM是什么

Infinity-MM是智源研究院推出的一個千萬級多模態指令數據集，包含4300萬條樣本，數據量高達10TB。數據集經過嚴格的質量過濾和去重，確保了數據的高質量和多樣性，旨在提升開源視覺-語言模型（VLMs）的性能。智源還推出了基于開源VLMs的合成數據生成方法，進一步擴展了數據集的規模和多樣性。基于Infinity-MM，智源成功訓練了20億參數的多模態模型Aquila-VL-2B，在同規模模型中取得了最先進的性能。

Infinity-MM

Infinity-MM的主要功能

提升開源模型性能：Infinity-MM通過提供大規模和高質量的指令數據，顯著提升開源視覺-語言模型（VLMs）的性能，使其接近或達到閉源模型的水平。
數據集構建：該數據集包含4300萬條經過嚴格篩選和去重的多模態樣本，涵蓋視覺問答、文字識別、文檔分析、數學推理等多種類型。
合成數據生成：基于開源VLMs和詳細的圖像注釋，生成與圖像內容緊密相關的多樣化指令，擴充數據集的規模和多樣性。
模型訓練與評估：Infinity-MM數據集被用于訓練20億參數的VLM模型Aquila-VL-2B，該模型在多個基準測試中展現了卓越的性能。
推動多模態研究：基于提供的大規模高質量數據集，促進多模態AI領域的研究和應用發展。

Infinity-MM的技術原理

數據收集與預處理：Infinity-MM的數據源自多個公開數據集，經過去重和質量過濾，確保數據集的高質量和多樣性。
合成數據生成方法：
- 圖像和指令標記系統：利用開源識別模型（如RAM++）對圖片進行自動標注，提取關鍵信息，形成圖像的語義基礎。
- 指令標簽體系：設計了一個指令標簽體系，涵蓋不同層次和種類的指令。
- 圖片與指令標簽對應關系建立：統計圖片標簽與指令標簽之間的對應關系，快速檢索匹配的指令任務標簽。
問題生成與過濾：指示模型根據圖片和指令類型生成具體問題，并進行合理性判斷。
答案生成與過濾：在生成問題后，進一步生成相應的指令回答，并嚴格過濾以確保與圖片內容或任務的匹配性。
分階段訓練策略：Aquila-VL-2B模型采用分階段訓練方法，逐步提升模型對視覺信息的理解和處理能力。
多模態架構：Aquila-VL-2B模型基于LLaVA-OneVision架構，結合文本塔（Qwen2.5-1.5B-instruct）和視覺塔（Siglip400m）。
訓練效率提升：智源自研的FlagScale框架對模型訓練進行適配，提高訓練效率，達到了原版基于DeepSpeed訓練代碼的1.7倍。

Infinity-MM的項目地址

HuggingFace模型庫：https://huggingface.co/datasets/BAAI/Infinity-MM
arXiv技術論文：https://arxiv.org/pdf/2410.18558

Infinity-MM的應用場景

視覺問答（Visual Question Answering， VQA）：基于圖像和相關問題的數據對，訓練模型理解并回答關于圖像內容的問題。
圖像字幕生成（Image Captioning）：為圖像生成描述性文本，廣泛應用于社交媒體、內容管理和圖像檢索等領域。
文檔理解和分析（Document Understanding and Analysis）：提取和理解文檔中的視覺和文本信息，適用于自動化辦公、智能文檔處理和信息提取。
數學和邏輯推理（Mathematical and Logical Reasoning）：訓練模型解決數學問題和邏輯推理任務，對教育技術、自動化測試和智能輔導系統非常有用。
多模態交互系統（Multimodal Interaction Systems）：結合視覺和語言信息，提高人機交互的自然性和效率，適用于智能助手和客戶服務機器人。

閱讀原文