OmniAlign-V

OmniAlign-V – 上海交大聯合上海 AI Lab 等推出的高質量數據集

OmniAlign-V 是一個由上海交通大學、上海AI Lab、學、復旦大學和浙江大合開發的高質量多模態數據集，旨在增強多模態大語言模型（MLLMs）與人類偏好的對齊能力。該數據集包含約20萬個多模態訓練樣本，涵蓋自然圖像和信息圖表，并結合開放式、知識豐富的問題與答案。

OmniAlign-V是什么

OmniAlign-V是專為提高多模態大語言模型（MLLMs）與人類偏好之間的對齊能力而設計的高質量數據集。此數據集由上海交通大學、上海AI Lab、學、復旦大學和浙江大合推出，包含約20萬個多模態訓練樣本，涵蓋自然圖像和信息圖表，結合復雜問題和多樣化的回答格式，以幫助模型更好地理解人類的需求和偏好。OmniAlign-V注重任務的多樣性，設計了知識問答、推理和創造性任務，以提升模型的對齊能力。同時，引入了圖像篩選策略，以確保用于數據生成的圖像具有豐富且復雜的語義。

OmniAlign-V

OmniAlign-V的主要功能

提供高質量的多模態訓練數據：包含約20萬個多模態樣本，涵蓋自然圖像和信息圖表（如海報、圖表等），結合復雜的問題與多樣化的回答格式，幫助模型更精準地理解人類的需求。
增強開放式問答能力：通過設計重點關注開放式問題和跨學科知識，提升模型生成符合人類偏好的回答的能力。
提升推理和創造性能力：訓練模型進行更復雜的思考與創作，以增強其在多模態交互中的表現。
優化多模態指令調優：利用高質量的指令調優數據，確保模型能夠更好地遵循人類的指令，并保留基礎能力（如目標識別、OCR等）。
支持多模態模型的持續優化：OmniAlign-V用于監督微調（SFT），結合直接偏好優化（DPO）進一步提升模型的對齊能力。

OmniAlign-V的技術原理

圖像篩選與分類：依據圖像復雜度（IC）評分和對象類別（OC）進行篩選，確保選擇出語義豐富且復雜的圖像。圖像被分類為自然圖像和信息圖表，針對不同類型的圖像設計相應的任務。
任務設計與數據生成：自然圖像的任務包括知識問答、推理和創造性任務，以提升模型對真實場景的理解及生成能力。信息圖表的任務則專注于圖表和海報等，要求模型具備對復雜信息的理解與解釋能力。通過使用GPT-4o等先進模型生成高質量的問答對，并進行后處理以優化數據質量。
后處理優化：對生成的問答對進行后處理，包括指令增強、推理增強和信息圖表答案的精細化處理，以確保數據的多樣性和高質量。
多模態訓練與優化：通過監督微調（SFT）和直接偏好優化（DPO）提升模型的對齊能力。數據集設計強調多樣性和復雜性，使模型在多模態交互中更好地理解人類偏好。
基準測試與評估：引入MM-AlignBench基準測試，以評估MLLMs在人類偏好對齊方面的表現，確保模型在真實場景中的有效性。