統(tǒng)一圖像生成,無需繁雜插件!智源發(fā)布擴(kuò)散模型框架OmniGen
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:統(tǒng)一圖像生成,無需繁雜插件!智源發(fā)布擴(kuò)散模型框架OmniGen
關(guān)鍵字:圖像,模型,能力,報(bào)告,任務(wù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI多模態(tài)模型,統(tǒng)一圖像生成。
最新擴(kuò)散模型框架來了。
智源研究院推出OmniGen,它能天然支持各種圖像生成任務(wù),架構(gòu)高度簡化,還能有效跨不同任務(wù)遷移知識(shí),應(yīng)對未見過的任務(wù)和領(lǐng)域。
特點(diǎn)如下:
1、統(tǒng)一性:OmniGen 天然地支持各種圖像生成任務(wù),例如文生圖、圖像編輯、主題驅(qū)動(dòng)生成和視覺條件生成等。此外,OmniGen可以處理經(jīng)典的計(jì)算機(jī)視覺任務(wù),將其轉(zhuǎn)換為圖像生成任務(wù)。
2、簡單性:OmniGen 的架構(gòu)高度簡化。此外,與現(xiàn)有模型相比,它更加用戶友好,可以通過指令完成復(fù)雜的任務(wù),而不需要冗長的處理步驟和額外的模塊(如 ControlNet 或 IP-Adapter),從而大大簡化了工作流程。
3、知識(shí)遷移:受益于統(tǒng)一格式的學(xué)習(xí),OmniGen 有效地跨不同任務(wù)遷移知識(shí),應(yīng)對未見過的任務(wù)和領(lǐng)域,并展示新穎的功能。我們還探討了模型的推理能力和思維鏈機(jī)制的在圖像生成領(lǐng)域的潛在應(yīng)用。
基于 OmniGen 的通用能力,可實(shí)施更靈活的圖像生成,以下展示一個(gè)簡單 Pipeline:文本生成圖像,編輯生成圖像的部分元素,根據(jù)生成圖像的人體姿態(tài)生成重
原文鏈接:統(tǒng)一圖像生成,無需繁雜插件!智源發(fā)布擴(kuò)散模型框架OmniGen
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: