Ovis2 – 阿里國際推出的多模態(tài)大語言系列模型
Ovis2 是阿里巴巴國際團(tuán)隊最新推出的多模態(tài)大型語言模型,旨在通過結(jié)構(gòu)化嵌入對齊技術(shù)有效解決視覺與文本之間的差異。Ovis2 在前一代 Ovis 模型的基礎(chǔ)上進(jìn)行了優(yōu)化,增強(qiáng)了小規(guī)模模型的性能密度,并通過指令微調(diào)和偏好學(xué)習(xí)顯著提升了思維鏈(CoT)推理能力。
Ovis2是什么
Ovis2 是阿里巴巴國際團(tuán)隊研發(fā)的新一代多模態(tài)大型語言模型。它采用結(jié)構(gòu)化嵌入對齊的方法,有效解決了視覺和文本模態(tài)之間的差異,并在 Ovis 系列架構(gòu)的基礎(chǔ)上進(jìn)行了強(qiáng)化,特別提升了小規(guī)模模型在能力密度方面的表現(xiàn)。Ovis2 具備指令微調(diào)和偏好學(xué)習(xí)的特性,從而顯著提升了思維鏈(CoT)推理能力。此外,Ovis2 還引入了視頻處理和多圖像處理能力,增強(qiáng)了對多語言的支持以及在復(fù)雜場景下的光學(xué)字符識別(OCR)能力。該系列模型分為六個不同的參數(shù)規(guī)模,包括1B、2B、4B、8B、16B 和 34B,均在 OpenCompass 多模態(tài)評測中表現(xiàn)優(yōu)異,特別是在數(shù)學(xué)推理和視頻理解方面。Ovis2 的開源為多模態(tài)大模型的研究和應(yīng)用開辟了新的方向和工具。
Ovis2的主要功能
- 多模態(tài)理解與生成:能夠處理文本、圖像和視頻等多種輸入模態(tài),生成高質(zhì)量的文本輸出,支持在復(fù)雜場景中的視覺和語言任務(wù)。
- 推理能力增強(qiáng):借助思維鏈(CoT)推理能力的提升,解決復(fù)雜的邏輯和數(shù)學(xué)問題,并提供逐步推理的解決方案。
- 視頻與多圖像處理:具備視頻理解能力,能夠選擇關(guān)鍵幀并處理多圖像輸入,從而應(yīng)對跨幀的復(fù)雜視覺信息。
- 多語言支持及OCR功能:支持多種語言的文本處理,可以從復(fù)雜的視覺元素(如表格和圖表)中提取結(jié)構(gòu)化數(shù)據(jù)。
- 小模型優(yōu)化:通過優(yōu)化訓(xùn)練策略,使小規(guī)模模型具備更高的能力密度,以滿足多樣化的應(yīng)用需求。
Ovis2的技術(shù)原理
- 結(jié)構(gòu)化嵌入對齊:利用視覺tokenizer將圖像切割成若干圖像塊(patch),提取特征后將其映射為“視覺單詞”,進(jìn)而形成概率化的視覺token。視覺token與文本token共同輸入到大語言模型(LLM),實現(xiàn)模態(tài)間的結(jié)構(gòu)化對齊。
- 四階段訓(xùn)練策略:
- 第一階段:凍結(jié)大語言模型,專注于視覺模塊的訓(xùn)練,以學(xué)習(xí)視覺特征與嵌入之間的轉(zhuǎn)化。
- 第二階段:進(jìn)一步訓(xùn)練視覺模塊,增強(qiáng)其對高分辨率圖像的理解及多語言O(shè)CR能力。
- 第三階段:使用對話形式的視覺數(shù)據(jù),使視覺嵌入與大語言模型的對話格式對齊。
- 第四階段:進(jìn)行多模態(tài)指令訓(xùn)練和偏好學(xué)習(xí),提升模型對用戶指令的遵循能力及輸出質(zhì)量。
- 視頻理解提升:利用MDP3算法(基于幀與文本的相關(guān)性、組合多樣性和序列性)進(jìn)行關(guān)鍵幀選擇,從而提升視頻理解的效果。
- 基于Transformer架構(gòu):結(jié)合強(qiáng)大的視覺編碼器(如ViT)和語言模型(如Qwen),實現(xiàn)高效的多模態(tài)融合與生成。
Ovis2的項目地址
- GitHub倉庫:https://github.com/AIDC-AI/Ovis
- HuggingFace模型庫:https://huggingface.co/collections/AIDC-AI/ovis2
Ovis2的應(yīng)用場景
- 研究人員與開發(fā)者:從事人工智能和多模態(tài)技術(shù)研究的專業(yè)人士,以及需要開發(fā)智能應(yīng)用的開發(fā)者,能夠進(jìn)行模型優(yōu)化、算法改進(jìn)或開發(fā)多模態(tài)應(yīng)用。
- 內(nèi)容創(chuàng)作者:新聞媒體、廣告和營銷行業(yè)的從業(yè)者,能夠快速生成圖片或視頻的描述、文案和標(biāo)題,從而提升創(chuàng)作效率。
- 教育工作者與學(xué)生:教師可以生成圖片或視頻的解釋性文字,幫助學(xué)生理解復(fù)雜內(nèi)容;學(xué)生則可以通過視覺問答功能解決學(xué)習(xí)中的疑難問題。
- 企業(yè)用戶:在金融、法律、醫(yī)療等行業(yè)工作的人員,可以處理復(fù)雜的文檔、圖像或視頻數(shù)據(jù),提取關(guān)鍵信息,輔助決策。
- 普通用戶與技術(shù)愛好者:對人工智能感興趣的人群,能夠進(jìn)行簡單的多模態(tài)任務(wù),例如生成圖片描述或進(jìn)行視覺問答,探索技術(shù)在日常生活中的應(yīng)用。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...