CogView4 – 智譜開源的AI文生圖模型,支持生成漢字
CogView4 是智譜科技推出的一款開源文生圖模型,擁有 60 億個(gè)參數(shù),具備原生中文輸入與中文文字生成的能力。該模型在 DPG-Bench 基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,綜合評(píng)分位列第一,成為開源文生圖模型領(lǐng)域的最新標(biāo)桿(SOTA)。
CogView4是什么
CogView4 是智譜科技推出的開源文生圖模型,具備 60 億參數(shù),能夠支持原生中文輸入及文字生成。作為首個(gè)遵循 Apache 2.0 協(xié)議的圖像生成模型,CogView4 不僅支持任意分辨率的圖像生成,還能根據(jù)復(fù)雜的文本描述生成高質(zhì)量的圖像。

CogView4的主要功能
- 支持中英雙語輸入:CogView4 是首個(gè)支持漢字生成的開源文生圖模型,可以根據(jù)中文或英文輸入生成高質(zhì)量圖像。
- 任意分辨率圖像生成:該模型能夠生成分辨率范圍從 512×512 到 2048×2048 的圖像,滿足多種創(chuàng)作需求。
- 卓越的語義對(duì)齊能力:在 DPG-Bench 基準(zhǔn)測(cè)試中,CogView4 綜合評(píng)分名列前茅,顯示出其在復(fù)雜語義對(duì)齊及指令遵循方面的出色表現(xiàn)。
- 中文文字繪畫:CogView4 特別優(yōu)化了漢字生成能力,能夠?qū)h字自然融入圖像,適合廣告、短視頻等創(chuàng)意應(yīng)用。
- 顯存優(yōu)化與高效推理:通過模型 CPU 卸載和文本編碼器量化等技術(shù),CogView4 顯著降低了顯存使用,提高了推理效率。
CogView4的技術(shù)原理
- 架構(gòu)設(shè)計(jì):CogView4 結(jié)合了擴(kuò)散模型與 Transformer 的架構(gòu)。擴(kuò)散模型通過逐步去噪生成圖像,而 Transformer 則負(fù)責(zé)處理文本和圖像的聯(lián)合表示。該模型使用了 6B 參數(shù)配置,支持任意長(zhǎng)度的文本輸入與任意分辨率的圖像生成。
- 文本編碼器與 Tokenizer:CogView4 采用了雙語(中英文)的 GLM-4 編碼器,能夠處理復(fù)雜的語義對(duì)齊任務(wù)。文本通過 Tokenizer 轉(zhuǎn)化為嵌入向量,隨后與圖像的潛在表示結(jié)合。
- 圖像編碼與解碼:圖像通過變分自編碼器(VAE)編碼成潛在空間的表示,隨后通過擴(kuò)散模型逐步去噪生成最終圖像,從而高效處理圖像生成任務(wù)。
- 擴(kuò)散過程與去噪:擴(kuò)散模型的核心是通過一系列去噪步驟逐步生成圖像。CogView4 利用 FlowMatch Euler Discrete Scheduler 控制去噪過程,用戶可以通過調(diào)整去噪步數(shù)(
num_inference_steps)來平衡生成質(zhì)量與速度。 - 多階段訓(xùn)練策略:CogView4 采用多階段訓(xùn)練策略,包括基礎(chǔ)分辨率訓(xùn)練、泛分辨率訓(xùn)練、高質(zhì)量數(shù)據(jù)微調(diào)和人類偏好對(duì)齊訓(xùn)練,確保生成圖像的高質(zhì)量與美感。
- 優(yōu)化與效率:為了提升訓(xùn)練與推理效率,CogView4 采用了顯存優(yōu)化技術(shù),如模型 CPU 卸載和文本編碼器量化。該模型支持 Apache 2.0 協(xié)議,以便于開源社區(qū)的進(jìn)一步開發(fā)。
CogView4的項(xiàng)目地址
- Github 倉(cāng)庫(kù):https://github.com/THUDM/CogView4
- HuggingFace 模型庫(kù):https://huggingface.co/THUDM/CogView4-6B
CogView4的官方案例
- 超長(zhǎng)故事(四格漫畫):請(qǐng)生成一張包含四個(gè)場(chǎng)景的四格漫畫圖,采用動(dòng)漫插畫風(fēng)格的連環(huán)畫。主要角色包括:小明:勇敢的人類男孩,手持寶劍,身穿簡(jiǎn)易戰(zhàn)士服;公主:美麗優(yōu)雅的人類女性,身著華麗公主服飾,被囚禁在怪獸的巢穴;:威嚴(yán)而仁慈的人類男性,身穿華麗的王者服飾,坐在王國(guó)的寶座上;火焰龍:覆蓋火焰鱗片的怪獸,口吐火焰,體型龐大;黑暗魔王:巨大怪獸,籠罩在黑暗中,擁有強(qiáng)大的魔法力量。

- CogView4 能將中英文字符自然地融入畫面,使海報(bào)和文案配圖的創(chuàng)作變得更加便捷。

- 擅長(zhǎng)理解和遵循中文提示詞,例如能夠描繪出古詩(shī)文中的意境。

CogView4的應(yīng)用場(chǎng)景
- 廣告與創(chuàng)意設(shè)計(jì):CogView4 能將中英文字符自然融入圖像,生成高質(zhì)量的海報(bào)和文案配圖,滿足廣告及創(chuàng)意設(shè)計(jì)的需求。
- 教育資源生成:該模型可以為教育領(lǐng)域生成教學(xué)插圖、科學(xué)插圖等,幫助學(xué)生更好地理解和吸收知識(shí)。
- 兒童繪本創(chuàng)作:CogView4 能生成適合兒童繪本的插圖,激發(fā)兒童的想象力。
- 電商與內(nèi)容創(chuàng)作:生成高質(zhì)量的產(chǎn)品圖片和廣告海報(bào),幫助商家快速創(chuàng)建吸引人的視覺內(nèi)容。
- 個(gè)性化定制:根據(jù)用戶需求生成定制化的圖像內(nèi)容,提升用戶體驗(yàn)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)