OmniAlign-V – 上海交大聯(lián)合上海 AI Lab 等推出的高質(zhì)量數(shù)據(jù)集
OmniAlign-V 是一個(gè)由上海交通大學(xué)、上海AI Lab、學(xué)、復(fù)旦大學(xué)和浙江大合開發(fā)的高質(zhì)量多模態(tài)數(shù)據(jù)集,旨在增強(qiáng)多模態(tài)大語言模型(MLLMs)與人類偏好的對齊能力。該數(shù)據(jù)集包含約20萬個(gè)多模態(tài)訓(xùn)練樣本,涵蓋自然圖像和信息圖表,并結(jié)合開放式、知識(shí)豐富的問題與答案。
OmniAlign-V是什么
OmniAlign-V是專為提高多模態(tài)大語言模型(MLLMs)與人類偏好之間的對齊能力而設(shè)計(jì)的高質(zhì)量數(shù)據(jù)集。此數(shù)據(jù)集由上海交通大學(xué)、上海AI Lab、學(xué)、復(fù)旦大學(xué)和浙江大合推出,包含約20萬個(gè)多模態(tài)訓(xùn)練樣本,涵蓋自然圖像和信息圖表,結(jié)合復(fù)雜問題和多樣化的回答格式,以幫助模型更好地理解人類的需求和偏好。OmniAlign-V注重任務(wù)的多樣性,設(shè)計(jì)了知識(shí)問答、推理和創(chuàng)造性任務(wù),以提升模型的對齊能力。同時(shí),引入了圖像篩選策略,以確保用于數(shù)據(jù)生成的圖像具有豐富且復(fù)雜的語義。

OmniAlign-V的主要功能
- 提供高質(zhì)量的多模態(tài)訓(xùn)練數(shù)據(jù):包含約20萬個(gè)多模態(tài)樣本,涵蓋自然圖像和信息圖表(如海報(bào)、圖表等),結(jié)合復(fù)雜的問題與多樣化的回答格式,幫助模型更精準(zhǔn)地理解人類的需求。
- 增強(qiáng)開放式問答能力:通過設(shè)計(jì)重點(diǎn)關(guān)注開放式問題和跨學(xué)科知識(shí),提升模型生成符合人類偏好的回答的能力。
- 提升推理和創(chuàng)造性能力:訓(xùn)練模型進(jìn)行更復(fù)雜的思考與創(chuàng)作,以增強(qiáng)其在多模態(tài)交互中的表現(xiàn)。
- 優(yōu)化多模態(tài)指令調(diào)優(yōu):利用高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù),確保模型能夠更好地遵循人類的指令,并保留基礎(chǔ)能力(如目標(biāo)識(shí)別、OCR等)。
- 支持多模態(tài)模型的持續(xù)優(yōu)化:OmniAlign-V用于監(jiān)督微調(diào)(SFT),結(jié)合直接偏好優(yōu)化(DPO)進(jìn)一步提升模型的對齊能力。
OmniAlign-V的技術(shù)原理
- 圖像篩選與分類:依據(jù)圖像復(fù)雜度(IC)評分和對象類別(OC)進(jìn)行篩選,確保選擇出語義豐富且復(fù)雜的圖像。圖像被分類為自然圖像和信息圖表,針對不同類型的圖像設(shè)計(jì)相應(yīng)的任務(wù)。
- 任務(wù)設(shè)計(jì)與數(shù)據(jù)生成:自然圖像的任務(wù)包括知識(shí)問答、推理和創(chuàng)造性任務(wù),以提升模型對真實(shí)場景的理解及生成能力。信息圖表的任務(wù)則專注于圖表和海報(bào)等,要求模型具備對復(fù)雜信息的理解與解釋能力。通過使用GPT-4o等先進(jìn)模型生成高質(zhì)量的問答對,并進(jìn)行后處理以優(yōu)化數(shù)據(jù)質(zhì)量。
- 后處理優(yōu)化:對生成的問答對進(jìn)行后處理,包括指令增強(qiáng)、推理增強(qiáng)和信息圖表答案的精細(xì)化處理,以確保數(shù)據(jù)的多樣性和高質(zhì)量。
- 多模態(tài)訓(xùn)練與優(yōu)化:通過監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)提升模型的對齊能力。數(shù)據(jù)集設(shè)計(jì)強(qiáng)調(diào)多樣性和復(fù)雜性,使模型在多模態(tài)交互中更好地理解人類偏好。
- 基準(zhǔn)測試與評估:引入MM-AlignBench基準(zhǔn)測試,以評估MLLMs在人類偏好對齊方面的表現(xiàn),確保模型在真實(shí)場景中的有效性。
OmniAlign-V的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://phoenixz810.github.io/OmniAlign-V
- GitHub倉庫:https://github.com/PhoenixZ810/OmniAlign-V
- HuggingFace模型庫:https://huggingface.co/collections/PhoenixZ/omnialign-v
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.18411
OmniAlign-V的應(yīng)用場景
- 多模態(tài)對話系統(tǒng):提升智能助手與用戶的互動(dòng)質(zhì)量,提供更符合人類偏好的回答。
- 圖像輔助問答:結(jié)合圖像信息,提供全面而準(zhǔn)確的問答服務(wù),適合教育、旅游等行業(yè)。
- 創(chuàng)意內(nèi)容生成:幫助用戶快速生成高質(zhì)量的創(chuàng)意文本,例如廣告文案、故事創(chuàng)作等。
- 教育與學(xué)習(xí)輔助:為學(xué)生提供更豐富的學(xué)習(xí)材料,支持對復(fù)雜圖表和插圖的理解。
- 信息圖表解讀:協(xié)助用戶解讀復(fù)雜圖表,提供背景知識(shí)和推理結(jié)果,提升數(shù)據(jù)理解能力。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號(hào)