不用GAN不用擴散,無需訓(xùn)練解鎖AI生圖新境界!判別模型成神秘第三極

原標(biāo)題:不用GAN不用擴散,無需訓(xùn)練解鎖AI生圖新境界!判別模型成神秘第三極
文章來源:新智元
內(nèi)容字?jǐn)?shù):6275字
判別模型也能進(jìn)行圖像合成?DAS技術(shù)詳解
傳統(tǒng)認(rèn)知中,判別模型用于圖像分類和識別,生成模型用于圖像合成。然而,一項名為“直接上升合成”(Direct Ascent Synthesis,DAS)的最新研究顛覆了這一認(rèn)知,證明判別模型同樣具備強大的圖像生成能力。
DAS的核心思想
DAS的核心在于挖掘判別模型中隱藏的生成知識。研究者發(fā)現(xiàn),雖然將判別模型的嵌入向量反向映射回圖像時,通常會得到無意義的噪聲,但這實際上是一個機會。通過合適的優(yōu)化方法,可以引導(dǎo)模型生成自然且有意義的圖像。
關(guān)鍵創(chuàng)新:多分辨率優(yōu)化
DAS的關(guān)鍵創(chuàng)新是多分辨率優(yōu)化。它將圖像分解為多個不同分辨率的組件進(jìn)行同時優(yōu)化,避免了傳統(tǒng)方法直接在像素層面操作可能產(chǎn)生的高頻噪聲。低分辨率組件捕捉圖像整體結(jié)構(gòu),高分辨率組件專注于細(xì)節(jié),使生成的圖像在語義上更加連貫。這種方法也提供了一種自然的正則化方式,避免優(yōu)化過程出現(xiàn)退化。
優(yōu)化目標(biāo)與技術(shù)細(xì)節(jié)
DAS通過衡量生成圖像與目標(biāo)描述(如文本描述對應(yīng)的嵌入向量)的CLIP嵌入相似度來進(jìn)行優(yōu)化。該優(yōu)化過程同時處理多個分辨率的組件,梯度根據(jù)各尺度的重要性自然分布,抑制高頻對抗模式。最終生成的圖像功率譜遵循1/f2分布,與自然圖像特征一致。
為了提升生成質(zhì)量和穩(wěn)定性,DAS采用了數(shù)據(jù)增強(隨機x-y位移和像素噪聲)、獨特的位移處理策略(擴大圖像尺寸避免邊界問題)以及模型集成(平均多個CLIP模型的梯度)等技術(shù)。
框架擴展與應(yīng)用
DAS框架具有很強的擴展性,可以處理多目標(biāo)向量,實現(xiàn)對生成圖像的精細(xì)控制。它在風(fēng)格遷移和重建任務(wù)中同樣表現(xiàn)出色,即使經(jīng)過大幅度維度壓縮,也能保留圖像的語義內(nèi)容和風(fēng)格元素。
實驗結(jié)果與分析
實驗結(jié)果表明,DAS在生成一致性、可控修改、重建保真度以及不同應(yīng)用(如生成國旗、圖像修復(fù)、風(fēng)格遷移)中均表現(xiàn)出色。生成的圖像具有高度的可靠性和語義一致性,能夠?qū)崿F(xiàn)精確的局部調(diào)整和全局場景轉(zhuǎn)換,并有效地保留圖像的語義和風(fēng)格信息。
結(jié)論
DAS研究證明了判別模型在圖像合成方面的巨大潛力,其多分辨率優(yōu)化策略有效地解決了傳統(tǒng)方法中存在的噪聲和退化問題,為圖像生成領(lǐng)域帶來了新的方向。該方法在多個應(yīng)用中展現(xiàn)了其通用性和高效性,為未來圖像生成技術(shù)的發(fā)展提供了新的思路。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

粵公網(wǎng)安備 44011502001135號