DINO-X是一款由IDEA研究院開(kāi)發(fā)的先進(jìn)視覺(jué)大模型,具有開(kāi)放世界對(duì)象檢測(cè)與理解的強(qiáng)大能力。該模型支持文本、視覺(jué)及定制提示,能夠自動(dòng)識(shí)別圖像中的各種對(duì)象,無(wú)需用戶輸入。DINO-X基于超過(guò)1億樣本的Grounding-100M數(shù)據(jù)集,在COCO、LVIS-minival及LVIS-val等多個(gè)基準(zhǔn)測(cè)試中創(chuàng)造了新的性能記錄。該產(chǎn)品分為兩個(gè)版本:DINO-X Pro,專注于卓越的感知能力;以及DINO-X Edge,優(yōu)化推理速度,適合邊緣計(jì)算應(yīng)用。DINO-X在長(zhǎng)尾物體識(shí)別方面表現(xiàn)尤為出色,廣泛適用于自動(dòng)駕駛、智能安防等領(lǐng)域,為行業(yè)的智能化升級(jí)注入了新的動(dòng)力。
DINO-X是什么
DINO-X是IDEA研究院推出的通用視覺(jué)大模型,具備開(kāi)放世界對(duì)象檢測(cè)與理解能力。支持文本、視覺(jué)和定制提示,能識(shí)別圖像中的任何對(duì)象而無(wú)需用戶提示。基于超過(guò)1億樣本的Grounding-100M數(shù)據(jù)集,DINO-X在COCO、LVIS-minival和LVIS-val基準(zhǔn)測(cè)試中刷新性能記錄。模型包含DINO-X Pro和DINO-X Edge兩個(gè)版本,前者提供強(qiáng)大的感知能力,后者優(yōu)化推理速度,適合邊緣部署。DINO-X在長(zhǎng)尾物體識(shí)別上表現(xiàn)出色,能廣泛應(yīng)用于自動(dòng)駕駛、智能安防等領(lǐng)域,為產(chǎn)業(yè)升級(jí)帶來(lái)新動(dòng)力。
DINO-X的主要功能
- 開(kāi)放世界對(duì)象檢測(cè)與分割:能夠檢測(cè)和分割圖像中的多種對(duì)象,包括長(zhǎng)尾類別中不常見(jiàn)的物體。
- 短語(yǔ)定位:根據(jù)用戶提供的文本短語(yǔ),精確定位圖像中的相應(yīng)對(duì)象。
- 視覺(jué)提示計(jì)數(shù):利用視覺(jué)提示,如繪制邊界框或點(diǎn),來(lái)統(tǒng)計(jì)特定對(duì)象的數(shù)量。
- 姿態(tài)估計(jì):預(yù)測(cè)圖像中人物或特定類別的關(guān)鍵點(diǎn),例如人體或手部的姿態(tài)。
- 無(wú)提示對(duì)象檢測(cè)與識(shí)別:支持無(wú)需任何提示即可檢測(cè)到圖像中的各種對(duì)象。
- 密集區(qū)域字幕:為圖像中的特定區(qū)域生成詳細(xì)的描述性字幕。
- 基于對(duì)象的問(wèn)答:能回答關(guān)于圖像中特定對(duì)象的提問(wèn)。
DINO-X的技術(shù)原理
- Transformer編碼器-解碼器架構(gòu):采用Transformer架構(gòu),利用編碼器提取圖像特征,解碼器則負(fù)責(zé)對(duì)象檢測(cè)與理解。
- 多模態(tài)預(yù)訓(xùn)練:在大規(guī)模Grounding-100M數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,使DINO-X學(xué)習(xí)到豐富的視覺(jué)與語(yǔ)言特征,增強(qiáng)其開(kāi)放詞匯的檢測(cè)能力。
- 提示擴(kuò)展:支持文本提示、視覺(jué)提示及定制提示,適應(yīng)更廣泛的檢測(cè)場(chǎng)景。
- 多感知頭集成:集成多種感知頭,如邊界框頭、分割頭、關(guān)鍵點(diǎn)頭和語(yǔ)言頭,以支持多樣化的感知與理解任務(wù)。
- 兩階段訓(xùn)練策略:
- 第一階段:聯(lián)合訓(xùn)練文本提示檢測(cè)、視覺(jué)提示檢測(cè)和對(duì)象分割任務(wù)。
- 第二階段:凍結(jié)DINO-X主干,單獨(dú)訓(xùn)練關(guān)鍵點(diǎn)頭和語(yǔ)言頭,擴(kuò)展模型的細(xì)粒度感知與理解能力。
- 知識(shí)蒸餾與FP16推理優(yōu)化:通過(guò)知識(shí)蒸餾技術(shù)從Pro模型提取知識(shí),并利用FP16量化技術(shù)提升推理速度。
- 語(yǔ)言頭設(shè)計(jì):DINO-X的語(yǔ)言頭借助凍結(jié)的DINO-X提取對(duì)象標(biāo)簽,并與任務(wù)標(biāo)簽結(jié)合,通過(guò)自回歸方式生成響應(yīng)輸出。
DINO-X的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):deepdataspace.com
- arXiv技術(shù)論文:https://arxiv.org/pdf/2411.14347
DINO-X的應(yīng)用場(chǎng)景
- 自動(dòng)駕駛:在自動(dòng)駕駛汽車中實(shí)時(shí)識(shí)別與理解道路環(huán)境,包括行人、車輛和交通標(biāo)志,從而提升安全性與反應(yīng)能力。
- 智能安防:在監(jiān)控系統(tǒng)中檢測(cè)與識(shí)別可疑行為、入侵者及其他安全威脅,提高監(jiān)控的智能化水平。
- 工業(yè)檢測(cè):用于制造業(yè)中的質(zhì)量控制,檢測(cè)產(chǎn)品缺陷,確保生產(chǎn)線的高效運(yùn)轉(zhuǎn)與產(chǎn)品質(zhì)量。
- 機(jī)器人視覺(jué):集成入服務(wù)機(jī)器人與工業(yè)機(jī)器人中,幫助其更好地理解周圍環(huán)境,增強(qiáng)交互與操作能力。
- 輔助視障人士:應(yīng)用于助盲設(shè)備中,幫助視障人士更好地理解與導(dǎo)航其周圍環(huán)境。