Poetry2Image

Poetry2Image – 專為中文古詩詞圖像生成設(shè)計的迭代校正框架

Poetry2Image是什么

Poetry2Image是哈爾濱工業(yè)大學(xué)研發(fā)的一種創(chuàng)新性框架，旨在為中文古詩詞的圖像生成提供迭代校正的解決方案。該框架通過自動化的反饋與校正循環(huán)，增進(jìn)了詩歌與圖像之間的協(xié)調(diào)性，能夠有效捕捉到詩詞的深層語義和藝術(shù)魅力。Poetry2Image成功解決了文本到圖像生成模型在處理中文古典詩歌時常見的關(guān)鍵元素缺失與語義混淆的問題。與五種流行的圖像生成模型結(jié)合使用時，系統(tǒng)實現(xiàn)了平均70.63%的元素完整性和80.09%的語義一致性。

Poetry2Image

Poetry2Image的主要功能

自動化反饋與校正：通過外部詩歌數(shù)據(jù)集，Poetry2Image建立了自動化的反饋與校正機(jī)制，顯著提高了詩歌與圖像的對齊度，提升生成圖像的質(zhì)量與準(zhǔn)確性。
減少人工干預(yù)：該框架降低了傳統(tǒng)方法中需要的人工干預(yù)和專業(yè)知識要求，使得圖像生成過程更加高效便捷。
提升效率與質(zhì)量：相對于傳統(tǒng)微調(diào)方法，Poetry2Image在保持圖像質(zhì)量的同時，大幅度降低了訓(xùn)練所需的時間和成本。
搜索與翻譯功能：系統(tǒng)能夠在詩歌數(shù)據(jù)庫中檢索用戶提供的古詩，找到其現(xiàn)代漢語翻譯及相關(guān)賞析。
生成初步圖像：依據(jù)詩歌的現(xiàn)代漢語翻譯，系統(tǒng)會生成一幅初步的圖像。
提取關(guān)鍵元素：系統(tǒng)運(yùn)用大型語言模型識別并提取詩歌中的關(guān)鍵元素。
圖像修正：系統(tǒng)會檢查生成的圖像是否包含所有關(guān)鍵元素，并在必要時給出修改建議，例如添加缺失元素或調(diào)整元素位置。
迭代優(yōu)化：若圖像中的元素不完整或不準(zhǔn)確，系統(tǒng)將根據(jù)建議重新生成圖像，此過程會不斷重復(fù)，直至圖像能準(zhǔn)確反映詩歌的意境。

Poetry2Image的技術(shù)原理

圖像元素識別與校正：基于開放詞匯檢測器（OVD）識別圖像中的元素信息，并通過大型語言模型（LLM）提供修改建議，指導(dǎo)圖像編輯模型對初始圖像進(jìn)行調(diào)整。
兼容性與訓(xùn)練成本：Poetry2Image對用于初始圖像生成的文本到圖像生成模型沒有限制，且迭代校正操作消除了額外的訓(xùn)練成本，同時自動化的圖像生成與反饋過程大幅減少了手動標(biāo)注的需求。

Poetry2Image的項目地址

Github倉庫：https://github.com/prajwalppv/Poetry2Image
arXiv技術(shù)論文：https://arxiv.org/pdf/2407.06196v1

Poetry2Image的應(yīng)用場景

古詩詞文化傳播：通過生成與古詩詞意境相契合的圖像，Poetry2Image有助于推動古詩詞文化的傳播，使傳統(tǒng)文化以更生動的形式被現(xiàn)代人理解與欣賞。
藝術(shù)創(chuàng)作輔助：為藝術(shù)家和設(shè)計師在創(chuàng)作過程中提供支持，快速生成與古詩詞相匹配的視覺元素，激發(fā)靈感與素材。
教育與學(xué)習(xí)：在教育領(lǐng)域，Poetry2Image可作為教學(xué)工具，幫助學(xué)生更深入地理解并記憶古詩詞，通過圖像與詩詞的結(jié)合，增強(qiáng)學(xué)習(xí)體驗。
圖像生成技術(shù)研究：Poetry2Image為研究人員提供了一個平臺，以探索和改進(jìn)文本到圖像生成技術(shù)，特別是在處理具有豐富文化內(nèi)涵和復(fù)雜語義的中文古詩詞時。

閱讀原文