原標題:不用GAN不用擴散,無需訓練解鎖AI生圖新境界!判別模型成神秘第三極
文章來源:新智元
內容字數:6275字
判別模型也能進行圖像合成?DAS技術詳解
傳統認知中,判別模型用于圖像分類和識別,生成模型用于圖像合成。然而,一項名為“直接上升合成”(Direct Ascent Synthesis,DAS)的最新研究顛覆了這一認知,證明判別模型同樣具備強大的圖像生成能力。
DAS的核心思想
DAS的核心在于挖掘判別模型中隱藏的生成知識。研究者發現,雖然將判別模型的嵌入向量反向映射回圖像時,通常會得到無意義的噪聲,但這實際上是一個機會。通過合適的優化方法,可以引導模型生成自然且有意義的圖像。
關鍵創新:多分辨率優化
DAS的關鍵創新是多分辨率優化。它將圖像分解為多個不同分辨率的組件進行同時優化,避免了傳統方法直接在像素層面操作可能產生的高頻噪聲。低分辨率組件捕捉圖像整體結構,高分辨率組件專注于細節,使生成的圖像在語義上更加連貫。這種方法也提供了一種自然的正則化方式,避免優化過程出現退化。
優化目標與技術細節
DAS通過衡量生成圖像與目標描述(如文本描述對應的嵌入向量)的CLIP嵌入相似度來進行優化。該優化過程同時處理多個分辨率的組件,梯度根據各尺度的重要性自然分布,抑制高頻對抗模式。最終生成的圖像功率譜遵循1/f2分布,與自然圖像特征一致。
為了提升生成質量和穩定性,DAS采用了數據增強(隨機x-y位移和像素噪聲)、獨特的位移處理策略(擴大圖像尺寸避免邊界問題)以及模型集成(平均多個CLIP模型的梯度)等技術。
框架擴展與應用
DAS框架具有很強的擴展性,可以處理多目標向量,實現對生成圖像的精細控制。它在風格遷移和重建任務中同樣表現出色,即使經過大幅度維度壓縮,也能保留圖像的語義內容和風格元素。
實驗結果與分析
實驗結果表明,DAS在生成一致性、可控修改、重建保真度以及不同應用(如生成國旗、圖像修復、風格遷移)中均表現出色。生成的圖像具有高度的可靠性和語義一致性,能夠實現精確的局部調整和全局場景轉換,并有效地保留圖像的語義和風格信息。
結論
DAS研究證明了判別模型在圖像合成方面的巨大潛力,其多分辨率優化策略有效地解決了傳統方法中存在的噪聲和退化問題,為圖像生成領域帶來了新的方向。該方法在多個應用中展現了其通用性和高效性,為未來圖像生成技術的發展提供了新的思路。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。