單提示生成「主體一致」圖像,且無需訓(xùn)練!已斬獲ICLR 2025 Spotlight
原標(biāo)題:單提示生成「主體一致」圖像,且無需訓(xùn)練!已斬獲ICLR 2025 Spotlight
文章來源:新智元
內(nèi)容字?jǐn)?shù):5466字
AI繪畫新突破:單提示單故事法實現(xiàn)人物形象一致
現(xiàn)今的AI繪畫技術(shù)已能根據(jù)文字描述生成高質(zhì)量圖像,但要創(chuàng)作人物形象在不同場景下保持一致的故事,卻面臨挑戰(zhàn)。通常解決方法需要海量數(shù)據(jù)訓(xùn)練或復(fù)雜模型修改,限制了應(yīng)用范圍。南開大學(xué)、中科院等機(jī)構(gòu)的研究人員提出了一種無需額外訓(xùn)練的創(chuàng)新方法——“單提示單故事”(1Prompt1Story),有效解決了這一難題。
1. 1Prompt1Story的核心思想
1Prompt1Story的核心思想是將所有場景描述整合到一個超長提示中,直接輸入AI繪畫模型。這利用了語言模型的上下文理解能力,讓模型一開始就記住人物特征,保證初步一致性。 為了進(jìn)一步優(yōu)化,研究人員引入了兩項關(guān)鍵技術(shù):奇異值重加權(quán)(SVR)和身份保持交叉注意力(IPCA)。
2. 關(guān)鍵技術(shù)詳解
2.1 奇異值重加權(quán) (SVR):SVR通過奇異值分解分析詞向量重要性,增強(qiáng)當(dāng)前場景描述的語義信息,同時弱化其他場景的干擾,確保模型關(guān)注焦點(diǎn)清晰。
2.2 身份保持交叉注意力 (IPCA):IPCA在圖像生成過程中,強(qiáng)化人物身份描述的特征,弱化場景描述對人物身份的影響,從而確保每一幀圖像都保持人物身份的一致性。
3. 與現(xiàn)有方法的比較
現(xiàn)有方法主要分為需要訓(xùn)練和無需訓(xùn)練兩類。需要訓(xùn)練的方法耗時耗力,容易出現(xiàn)語言漂移;無需訓(xùn)練的方法則可能資源消耗大或設(shè)計復(fù)雜,且忽略了長提示的內(nèi)在特性,容易出現(xiàn)背景混淆等問題。1Prompt1Story方法則有效避免了這些缺點(diǎn)。
4. 實驗結(jié)果
實驗結(jié)果表明,1Prompt1Story在人物身份保持、圖像內(nèi)容準(zhǔn)確性以及圖像多樣性方面均優(yōu)于現(xiàn)有方法。定量分析顯示,其文本與圖像對齊程度接近原始模型,身份一致性也僅次于IP-Adapter,但后者犧牲了圖像多樣性。1Prompt1Story在文本-圖像對齊和身份一致性之間取得了良好的平衡。
5. 總結(jié)
1Prompt1Story通過提示整合 (PCon)、奇異值重加權(quán) (SVR) 和身份保持交叉注意力 (IPCA) 三個步驟,實現(xiàn)了高效的人物身份一致性圖像生成。該方法無需額外訓(xùn)練,且在實驗中展現(xiàn)出優(yōu)異的性能,為AI繪畫技術(shù)的發(fā)展提供了新的方向。
6. 未來展望
該研究成果展示了利用語言模型內(nèi)在能力進(jìn)行圖像生成的潛力,未來可以探索將其應(yīng)用于更復(fù)雜的場景,例如多主體故事生成和更長故事的生成,以及與不同基礎(chǔ)模型的結(jié)合,進(jìn)一步提升AI繪畫的表達(dá)能力和創(chuàng)作效率。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。