Jodi – 中國(guó)科學(xué)院推出的視覺理解與生成統(tǒng)一模型
Jodi是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所與中國(guó)科學(xué)院大學(xué)共同研發(fā)的先進(jìn)擴(kuò)散模型框架,旨在將視覺生成與理解有效結(jié)合。其獨(dú)特之處在于通過(guò)聯(lián)合建模圖像及多個(gè)標(biāo)簽域,實(shí)現(xiàn)深度的視覺信息處理。
Jodi是什么
Jodi是一個(gè)創(chuàng)新的擴(kuò)散模型框架,源于中國(guó)科學(xué)院計(jì)算技術(shù)研究所和中國(guó)科學(xué)院大學(xué),旨在統(tǒng)一視覺生成與理解的過(guò)程。該框架依托于線性擴(kuò)散Transformer和角色切換機(jī)制,能夠執(zhí)行三種核心任務(wù):聯(lián)合生成(同時(shí)生成圖像及多個(gè)標(biāo)簽)、可控生成(基于標(biāo)簽組合生成特定圖像),以及圖像感知(從圖像中預(yù)測(cè)多個(gè)標(biāo)簽)。Jodi利用Joint-1.6M數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含20萬(wàn)張高質(zhì)量圖像及7個(gè)視覺域標(biāo)簽。Jodi在生成和理解任務(wù)中表現(xiàn)出色,展現(xiàn)出強(qiáng)大的可擴(kuò)展性和跨領(lǐng)域一致性。
Jodi的主要功能
- 聯(lián)合生成:能夠同時(shí)生成圖像和多種標(biāo)簽,例如深度圖、法線圖和邊緣圖,確保生成的內(nèi)容在語(yǔ)義和空間上具有一致性。
- 可控生成:用戶可通過(guò)特定標(biāo)簽組合來(lái)生成圖像,從而控制生成結(jié)果的特定屬性或特征。
- 圖像感知:從給定的圖像中預(yù)測(cè)多個(gè)標(biāo)簽,實(shí)現(xiàn)對(duì)圖像的多維度理解與分析,例如深度估計(jì)、邊緣檢測(cè)和語(yǔ)義分割等。
Jodi的技術(shù)原理
- 聯(lián)合建模:通過(guò)對(duì)圖像域及多個(gè)標(biāo)簽域的聯(lián)合分布進(jìn)行建模,推導(dǎo)出生成和理解任務(wù)所需的邊際和條件分布。
- 角色切換機(jī)制:在訓(xùn)練過(guò)程中,每個(gè)域會(huì)被隨機(jī)指定為三種角色之一:生成目標(biāo)([G])、條件輸入([C])或被忽略([X]),使模型能夠?qū)W習(xí)不同類型的概率分布。
- 線性擴(kuò)散Transformer:作為主干網(wǎng)絡(luò)的線性擴(kuò)散Transformer通過(guò)線性注意力機(jī)制有效降低計(jì)算復(fù)雜度,使模型能高效處理多個(gè)視覺域,同時(shí)引入掩碼線性注意力和領(lǐng)域不變的位置嵌入,增強(qiáng)不同視覺域之間的一致性和對(duì)齊。
- 數(shù)據(jù)集構(gòu)建:為支持多視覺域的聯(lián)合建模,Jodi開發(fā)了Joint-1.6M數(shù)據(jù)集,包含20萬(wàn)張高質(zhì)量圖像及對(duì)應(yīng)的7個(gè)視覺域的自動(dòng)標(biāo)簽,提供豐富的數(shù)據(jù)支持。
Jodi的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://vipl-genun.github.io/Project-Jodi/
- GitHub倉(cāng)庫(kù):https://github.com/VIPL-GENUN/Jodi
- HuggingFace模型庫(kù):https://huggingface.co/VIPL-GENUN/Jodi
- arXiv技術(shù)論文:https://arxiv.org/pdf/2505.19084
Jodi的應(yīng)用場(chǎng)景
- 創(chuàng)意內(nèi)容生成:為藝術(shù)家和設(shè)計(jì)師提供靈感,能夠快速生成具有特定風(fēng)格或元素的圖像。
- 多模態(tài)數(shù)據(jù)增強(qiáng):生成高質(zhì)量的多模態(tài)數(shù)據(jù),提升機(jī)器學(xué)習(xí)模型的訓(xùn)練效果。
- 圖像編輯與修復(fù):根據(jù)用戶輸入,修復(fù)或編輯圖像,生成缺失部分或調(diào)整風(fēng)格。
- 視覺理解與分析:通過(guò)預(yù)測(cè)多種視覺標(biāo)簽,輔助完成圖像理解任務(wù),例如醫(yī)學(xué)圖像分析。
- 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí):生成真實(shí)感的虛擬場(chǎng)景和標(biāo)注信息,提升VR和AR應(yīng)用的用戶體驗(yàn)。
常見問(wèn)題
- Jodi適用于哪些領(lǐng)域? Jodi可以廣泛應(yīng)用于創(chuàng)意設(shè)計(jì)、數(shù)據(jù)增強(qiáng)、圖像處理及醫(yī)療影像分析等多個(gè)領(lǐng)域。
- 使用Jodi需要哪些技術(shù)基礎(chǔ)? 使用Jodi建議具備一定的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)基礎(chǔ),尤其是在圖像處理方面的知識(shí)。
- 如何獲取Jodi的支持與幫助? 用戶可以通過(guò)項(xiàng)目官網(wǎng)或GitHub倉(cāng)庫(kù)聯(lián)系開發(fā)團(tuán)隊(duì),獲取技術(shù)支持和使用幫助。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...