Ovis2 – 阿里國際推出的多模態大語言系列模型
Ovis2 是阿里巴巴國際團隊最新推出的多模態大型語言模型,旨在通過結構化嵌入對齊技術有效解決視覺與文本之間的差異。Ovis2 在前一代 Ovis 模型的基礎上進行了優化,增強了小規模模型的性能密度,并通過指令微調和偏好學習顯著提升了思維鏈(CoT)推理能力。
Ovis2是什么
Ovis2 是阿里巴巴國際團隊研發的新一代多模態大型語言模型。它采用結構化嵌入對齊的方法,有效解決了視覺和文本模態之間的差異,并在 Ovis 系列架構的基礎上進行了強化,特別提升了小規模模型在能力密度方面的表現。Ovis2 具備指令微調和偏好學習的特性,從而顯著提升了思維鏈(CoT)推理能力。此外,Ovis2 還引入了視頻處理和多圖像處理能力,增強了對多語言的支持以及在復雜場景下的光學字符識別(OCR)能力。該系列模型分為六個不同的參數規模,包括1B、2B、4B、8B、16B 和 34B,均在 OpenCompass 多模態評測中表現優異,特別是在數學推理和視頻理解方面。Ovis2 的開源為多模態大模型的研究和應用開辟了新的方向和工具。
Ovis2的主要功能
- 多模態理解與生成:能夠處理文本、圖像和視頻等多種輸入模態,生成高質量的文本輸出,支持在復雜場景中的視覺和語言任務。
- 推理能力增強:借助思維鏈(CoT)推理能力的提升,解決復雜的邏輯和數學問題,并提供逐步推理的解決方案。
- 視頻與多圖像處理:具備視頻理解能力,能夠選擇關鍵幀并處理多圖像輸入,從而應對跨幀的復雜視覺信息。
- 多語言支持及OCR功能:支持多種語言的文本處理,可以從復雜的視覺元素(如表格和圖表)中提取結構化數據。
- 小模型優化:通過優化訓練策略,使小規模模型具備更高的能力密度,以滿足多樣化的應用需求。
Ovis2的技術原理
- 結構化嵌入對齊:利用視覺tokenizer將圖像切割成若干圖像塊(patch),提取特征后將其映射為“視覺單詞”,進而形成概率化的視覺token。視覺token與文本token共同輸入到大語言模型(LLM),實現模態間的結構化對齊。
- 四階段訓練策略:
- 第一階段:凍結大語言模型,專注于視覺模塊的訓練,以學習視覺特征與嵌入之間的轉化。
- 第二階段:進一步訓練視覺模塊,增強其對高分辨率圖像的理解及多語言OCR能力。
- 第三階段:使用對話形式的視覺數據,使視覺嵌入與大語言模型的對話格式對齊。
- 第四階段:進行多模態指令訓練和偏好學習,提升模型對用戶指令的遵循能力及輸出質量。
- 視頻理解提升:利用MDP3算法(基于幀與文本的相關性、組合多樣性和序列性)進行關鍵幀選擇,從而提升視頻理解的效果。
- 基于Transformer架構:結合強大的視覺編碼器(如ViT)和語言模型(如Qwen),實現高效的多模態融合與生成。
Ovis2的項目地址
- GitHub倉庫:https://github.com/AIDC-AI/Ovis
- HuggingFace模型庫:https://huggingface.co/collections/AIDC-AI/ovis2
Ovis2的應用場景
- 研究人員與開發者:從事人工智能和多模態技術研究的專業人士,以及需要開發智能應用的開發者,能夠進行模型優化、算法改進或開發多模態應用。
- 內容創作者:新聞媒體、廣告和營銷行業的從業者,能夠快速生成圖片或視頻的描述、文案和標題,從而提升創作效率。
- 教育工作者與學生:教師可以生成圖片或視頻的解釋性文字,幫助學生理解復雜內容;學生則可以通過視覺問答功能解決學習中的疑難問題。
- 企業用戶:在金融、法律、醫療等行業工作的人員,可以處理復雜的文檔、圖像或視頻數據,提取關鍵信息,輔助決策。
- 普通用戶與技術愛好者:對人工智能感興趣的人群,能夠進行簡單的多模態任務,例如生成圖片描述或進行視覺問答,探索技術在日常生活中的應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...