<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Ovis2

        AI工具3個月前更新 AI工具集
        1,141 0 0

        Ovis2 – 阿里國際推出的多模態(tài)大語言系列模型

        Ovis2 是阿里巴巴國際團(tuán)隊最新推出的多模態(tài)大型語言模型,旨在通過結(jié)構(gòu)化嵌入對齊技術(shù)有效解決視覺與文本之間的差異。Ovis2 在前一代 Ovis 模型的基礎(chǔ)上進(jìn)行了優(yōu)化,增強(qiáng)了小規(guī)模模型的性能密度,并通過指令微調(diào)和偏好學(xué)習(xí)顯著提升了思維鏈(CoT)推理能力。

        Ovis2是什么

        Ovis2 是阿里巴巴國際團(tuán)隊研發(fā)的新一代多模態(tài)大型語言模型。它采用結(jié)構(gòu)化嵌入對齊的方法,有效解決了視覺和文本模態(tài)之間的差異,并在 Ovis 系列架構(gòu)的基礎(chǔ)上進(jìn)行了強(qiáng)化,特別提升了小規(guī)模模型在能力密度方面的表現(xiàn)。Ovis2 具備指令微調(diào)和偏好學(xué)習(xí)的特性,從而顯著提升了思維鏈(CoT)推理能力。此外,Ovis2 還引入了視頻處理和多圖像處理能力,增強(qiáng)了對多語言的支持以及在復(fù)雜場景下的光學(xué)字符識別(OCR)能力。該系列模型分為六個不同的參數(shù)規(guī)模,包括1B、2B、4B、8B、16B 和 34B,均在 OpenCompass 多模態(tài)評測中表現(xiàn)優(yōu)異,特別是在數(shù)學(xué)推理和視頻理解方面。Ovis2 的開源為多模態(tài)大模型的研究和應(yīng)用開辟了新的方向和工具。

        Ovis2

        Ovis2的主要功能

        • 多模態(tài)理解與生成:能夠處理文本、圖像和視頻等多種輸入模態(tài),生成高質(zhì)量的文本輸出,支持在復(fù)雜場景中的視覺和語言任務(wù)。
        • 推理能力增強(qiáng):借助思維鏈(CoT)推理能力的提升,解決復(fù)雜的邏輯和數(shù)學(xué)問題,并提供逐步推理的解決方案。
        • 視頻與多圖像處理:具備視頻理解能力,能夠選擇關(guān)鍵幀并處理多圖像輸入,從而應(yīng)對跨幀的復(fù)雜視覺信息。
        • 多語言支持及OCR功能:支持多種語言的文本處理,可以從復(fù)雜的視覺元素(如表格和圖表)中提取結(jié)構(gòu)化數(shù)據(jù)。
        • 小模型優(yōu)化:通過優(yōu)化訓(xùn)練策略,使小規(guī)模模型具備更高的能力密度,以滿足多樣化的應(yīng)用需求。

        Ovis2的技術(shù)原理

        • 結(jié)構(gòu)化嵌入對齊:利用視覺tokenizer將圖像切割成若干圖像塊(patch),提取特征后將其映射為“視覺單詞”,進(jìn)而形成概率化的視覺token。視覺token與文本token共同輸入到大語言模型(LLM),實現(xiàn)模態(tài)間的結(jié)構(gòu)化對齊。
        • 四階段訓(xùn)練策略
          • 第一階段:凍結(jié)大語言模型,專注于視覺模塊的訓(xùn)練,以學(xué)習(xí)視覺特征與嵌入之間的轉(zhuǎn)化。
          • 第二階段:進(jìn)一步訓(xùn)練視覺模塊,增強(qiáng)其對高分辨率圖像的理解及多語言O(shè)CR能力。
          • 第三階段:使用對話形式的視覺數(shù)據(jù),使視覺嵌入與大語言模型的對話格式對齊。
          • 第四階段:進(jìn)行多模態(tài)指令訓(xùn)練和偏好學(xué)習(xí),提升模型對用戶指令的遵循能力及輸出質(zhì)量。
        • 視頻理解提升:利用MDP3算法(基于幀與文本的相關(guān)性、組合多樣性和序列性)進(jìn)行關(guān)鍵幀選擇,從而提升視頻理解的效果。
        • 基于Transformer架構(gòu):結(jié)合強(qiáng)大的視覺編碼器(如ViT)和語言模型(如Qwen),實現(xiàn)高效的多模態(tài)融合與生成。

        Ovis2的項目地址

        Ovis2的應(yīng)用場景

        • 研究人員與開發(fā)者:從事人工智能和多模態(tài)技術(shù)研究的專業(yè)人士,以及需要開發(fā)智能應(yīng)用的開發(fā)者,能夠進(jìn)行模型優(yōu)化、算法改進(jìn)或開發(fā)多模態(tài)應(yīng)用。
        • 內(nèi)容創(chuàng)作者:新聞媒體、廣告和營銷行業(yè)的從業(yè)者,能夠快速生成圖片或視頻的描述、文案和標(biāo)題,從而提升創(chuàng)作效率。
        • 教育工作者與學(xué)生:教師可以生成圖片或視頻的解釋性文字,幫助學(xué)生理解復(fù)雜內(nèi)容;學(xué)生則可以通過視覺問答功能解決學(xué)習(xí)中的疑難問題。
        • 企業(yè)用戶:在金融、法律、醫(yī)療等行業(yè)工作的人員,可以處理復(fù)雜的文檔、圖像或視頻數(shù)據(jù),提取關(guān)鍵信息,輔助決策。
        • 普通用戶與技術(shù)愛好者:對人工智能感興趣的人群,能夠進(jìn)行簡單的多模態(tài)任務(wù),例如生成圖片描述或進(jìn)行視覺問答,探索技術(shù)在日常生活中的應(yīng)用。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费看a级黄色片| 国产精品自拍亚洲| 成人无遮挡裸免费视频在线观看| 亚洲一区二区三区在线 | 亚洲成aⅴ人片久青草影院按摩| 亚洲成a人一区二区三区| 久爱免费观看在线网站| 亚洲国产AV无码一区二区三区| 国产精品亚洲精品日韩已方| xxxx日本免费| 污污视频免费观看网站| 亚洲综合亚洲国产尤物| 亚洲无码精品浪潮| 成人片黄网站A毛片免费| a级毛片免费高清毛片视频| 亚洲综合精品成人| 成年大片免费视频| 国产性生大片免费观看性| 亚洲 日韩经典 中文字幕| 亚洲女久久久噜噜噜熟女| 大地资源网高清在线观看免费 | 亚洲精品动漫人成3d在线| 91久久精品国产免费直播| 国产精品高清免费网站| 亚洲国产美女精品久久久久∴ | 亚洲精品无码久久久久久久| 国产福利免费在线观看| 一级黄色免费毛片| 亚洲乱码一区二区三区在线观看| 大地资源二在线观看免费高清| 国产拍拍拍无码视频免费| 黄色a三级三级三级免费看| 亚洲日韩一区二区三区| 中文字幕亚洲日韩无线码| 天堂在线免费观看中文版| 91大神免费观看| 国产精品网站在线观看免费传媒| 日韩一级片免费观看| 亚洲精品女同中文字幕| 狠狠色香婷婷久久亚洲精品| 色噜噜综合亚洲av中文无码|