<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DINO-X:通用視覺(jué)大模型助力智能識(shí)別與分析的新時(shí)代

        AI工具8個(gè)月前發(fā)布 AI工具集
        770 0 0

        DINO-X是一款由IDEA研究院開(kāi)發(fā)的先進(jìn)視覺(jué)大模型,具有開(kāi)放世界對(duì)象檢測(cè)與理解的強(qiáng)大能力。該模型支持文本、視覺(jué)及定制提示,能夠自動(dòng)識(shí)別圖像中的各種對(duì)象,無(wú)需用戶輸入。DINO-X基于超過(guò)1億樣本的Grounding-100M數(shù)據(jù)集,在COCO、LVIS-minival及LVIS-val等多個(gè)基準(zhǔn)測(cè)試中創(chuàng)造了新的性能記錄。該產(chǎn)品分為兩個(gè)版本:DINO-X Pro,專注于卓越的感知能力;以及DINO-X Edge,優(yōu)化推理速度,適合邊緣計(jì)算應(yīng)用。DINO-X在長(zhǎng)尾物體識(shí)別方面表現(xiàn)尤為出色,廣泛適用于自動(dòng)駕駛、智能安防等領(lǐng)域,為行業(yè)的智能化升級(jí)注入了新的動(dòng)力。

        DINO-X是什么

        DINO-X是IDEA研究院推出的通用視覺(jué)大模型,具備開(kāi)放世界對(duì)象檢測(cè)與理解能力。支持文本、視覺(jué)和定制提示,能識(shí)別圖像中的任何對(duì)象而無(wú)需用戶提示。基于超過(guò)1億樣本的Grounding-100M數(shù)據(jù)集,DINO-X在COCO、LVIS-minival和LVIS-val基準(zhǔn)測(cè)試中刷新性能記錄。模型包含DINO-X Pro和DINO-X Edge兩個(gè)版本,前者提供強(qiáng)大的感知能力,后者優(yōu)化推理速度,適合邊緣部署。DINO-X在長(zhǎng)尾物體識(shí)別上表現(xiàn)出色,能廣泛應(yīng)用于自動(dòng)駕駛、智能安防等領(lǐng)域,為產(chǎn)業(yè)升級(jí)帶來(lái)新動(dòng)力。

        DINO-X:通用視覺(jué)大模型助力智能識(shí)別與分析的新時(shí)代

        DINO-X的主要功能

        • 開(kāi)放世界對(duì)象檢測(cè)與分割:能夠檢測(cè)和分割圖像中的多種對(duì)象,包括長(zhǎng)尾類別中不常見(jiàn)的物體。
        • 短語(yǔ)定位:根據(jù)用戶提供的文本短語(yǔ),精確定位圖像中的相應(yīng)對(duì)象。
        • 視覺(jué)提示計(jì)數(shù):利用視覺(jué)提示,如繪制邊界框或點(diǎn),來(lái)統(tǒng)計(jì)特定對(duì)象的數(shù)量。
        • 姿態(tài)估計(jì):預(yù)測(cè)圖像中人物或特定類別的關(guān)鍵點(diǎn),例如人體或手部的姿態(tài)。
        • 無(wú)提示對(duì)象檢測(cè)與識(shí)別:支持無(wú)需任何提示即可檢測(cè)到圖像中的各種對(duì)象。
        • 密集區(qū)域字幕:為圖像中的特定區(qū)域生成詳細(xì)的描述性字幕。
        • 基于對(duì)象的問(wèn)答:能回答關(guān)于圖像中特定對(duì)象的提問(wèn)。

        DINO-X的技術(shù)原理

        • Transformer編碼器-解碼器架構(gòu):采用Transformer架構(gòu),利用編碼器提取圖像特征,解碼器則負(fù)責(zé)對(duì)象檢測(cè)與理解。
        • 多模態(tài)預(yù)訓(xùn)練:在大規(guī)模Grounding-100M數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,使DINO-X學(xué)習(xí)到豐富的視覺(jué)與語(yǔ)言特征,增強(qiáng)其開(kāi)放詞匯的檢測(cè)能力。
        • 提示擴(kuò)展:支持文本提示、視覺(jué)提示及定制提示,適應(yīng)更廣泛的檢測(cè)場(chǎng)景。
        • 多感知頭集成:集成多種感知頭,如邊界框頭、分割頭、關(guān)鍵點(diǎn)頭和語(yǔ)言頭,以支持多樣化的感知與理解任務(wù)。
        • 兩階段訓(xùn)練策略
          • 第一階段:聯(lián)合訓(xùn)練文本提示檢測(cè)、視覺(jué)提示檢測(cè)和對(duì)象分割任務(wù)。
          • 第二階段:凍結(jié)DINO-X主干,單獨(dú)訓(xùn)練關(guān)鍵點(diǎn)頭和語(yǔ)言頭,擴(kuò)展模型的細(xì)粒度感知與理解能力。
        • 知識(shí)蒸餾與FP16推理優(yōu)化:通過(guò)知識(shí)蒸餾技術(shù)從Pro模型提取知識(shí),并利用FP16量化技術(shù)提升推理速度。
        • 語(yǔ)言頭設(shè)計(jì):DINO-X的語(yǔ)言頭借助凍結(jié)的DINO-X提取對(duì)象標(biāo)簽,并與任務(wù)標(biāo)簽結(jié)合,通過(guò)自回歸方式生成響應(yīng)輸出。

        DINO-X的項(xiàng)目地址

        DINO-X的應(yīng)用場(chǎng)景

        • 自動(dòng)駕駛:在自動(dòng)駕駛汽車中實(shí)時(shí)識(shí)別與理解道路環(huán)境,包括行人、車輛和交通標(biāo)志,從而提升安全性與反應(yīng)能力。
        • 智能安防:在監(jiān)控系統(tǒng)中檢測(cè)與識(shí)別可疑行為、入侵者及其他安全威脅,提高監(jiān)控的智能化水平。
        • 工業(yè)檢測(cè):用于制造業(yè)中的質(zhì)量控制,檢測(cè)產(chǎn)品缺陷,確保生產(chǎn)線的高效運(yùn)轉(zhuǎn)與產(chǎn)品質(zhì)量。
        • 機(jī)器人視覺(jué):集成入服務(wù)機(jī)器人與工業(yè)機(jī)器人中,幫助其更好地理解周圍環(huán)境,增強(qiáng)交互與操作能力。
        • 輔助視障人士:應(yīng)用于助盲設(shè)備中,幫助視障人士更好地理解與導(dǎo)航其周圍環(huán)境。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 每天更新的免费av片在线观看| 亚洲精品亚洲人成在线播放| 亚洲乱码一二三四区麻豆| 91免费福利视频| 亚洲女人被黑人巨大进入| 曰韩无码AV片免费播放不卡| 一个人免费观看在线视频www| 亚洲国产精品一区二区第一页 | 亚洲精品中文字幕麻豆| 最近免费mv在线观看动漫| 国产精品亚洲mnbav网站| WWW亚洲色大成网络.COM | 一个人看的www免费视频在线观看| 亚洲狠狠爱综合影院婷婷| 一级毛片免费播放视频| 亚洲av中文无码| 国产三级在线免费观看| 亚洲成AV人片在| 国产免费的野战视频| 一区二区亚洲精品精华液| 日本特黄特色免费大片| 青娱乐在线免费观看视频| 亚洲色欲色欲www在线丝| 一级毛片免费观看不卡视频| 亚洲国产美女在线观看| 国产精品黄页在线播放免费| GOGOGO高清免费看韩国| 亚洲国产综合91精品麻豆| 免费看大美女大黄大色| 国产免费人成视频尤勿视频| 亚洲网站在线观看| 免费无码黄动漫在线观看| 国产免费伦精品一区二区三区| 亚洲精品中文字幕乱码| 全部免费毛片在线| 30岁的女人韩剧免费观看| 亚洲av日韩aⅴ无码色老头| 成人毛片免费在线观看| 国产免费爽爽视频在线观看| 亚洲男人天堂2018av| 亚洲熟妇无码AV在线播放|