PromptEnhancer

PromptEnhancer – 騰訊開源的文本到圖像提示詞增強框架

PromptEnhancer 是一款騰訊混元團隊推出的革新性文本到圖像（T2I）提示優化框架，它通過模擬人類思維過程的“思維鏈”（CoT）提示重寫技術，結合專門設計的“AlignEvaluator”獎勵模型，極大地增強了T2I模型對復雜用戶指令的理解能力和生成圖像的精確度。該框架無需修改現有T2I模型的內部參數，具備出色的通用性和即插即用性，能夠無縫適配多種主流模型，如HunyuanImage、Stable Diffusion和Imagen等。通過兩階段的精細化訓練，PromptEnhancer能夠顯著提升生成圖像與用戶真實意圖的貼合度。

PromptEnhancer：賦能 T2I 模型，實現更精準的圖像生成

PromptEnhancer 是一款由騰訊混元團隊重磅推出的文本到圖像（T2I）提示重寫框架，旨在為T2I模型注入更強大的指令理解能力和生成精度。它巧妙地融合了“思維鏈”（Chain-of-Thought，CoT）提示重寫技術與專用的“AlignEvaluator”獎勵模型，使得T2I模型能夠更深刻地洞察并忠實地還原用戶提出的復雜指令，從而生成與之高度契合的圖像。

核心優勢：通用、高效、智能

PromptEnhancer 的卓越之處在于其“通用性”和“即插即用”的設計理念。它無需對任何預訓練T2I模型的權重進行改動，即可作為的模塊，輕松集成到HunyuanImage、Stable Diffusion、Imagen等多種主流T2I模型之中，極大地降低了模型優化的門檻和成本。通過精心設計的兩階段訓練流程，PromptEnhancer 能夠對提示進行深度優化，確保最終生成的圖像能夠精準地反映用戶的真實意圖。

賦能 T2I 模型，解鎖更高精度圖像生成

PromptEnhancer 的核心使命是顯著提升T2I模型的生成準確性和對齊精度。它能夠有效地解析和處理用戶輸入的復雜指令，包括屬性的精確綁定、否定指令的理解以及多元素之間復雜關系的描述。這意味著用戶可以更加隨心所欲地表達創意，而T2I模型則能更準確地將這些創意轉化為視覺圖像。

技術亮點：思維的鏈條與精準的評估

PromptEnhancer 的強大能力源于其創新的技術原理：

* **思維鏈（CoT）提示重寫**：該框架引入了模擬人類設計師思考過程的“思維鏈”機制。它能夠將用戶簡潔的指令逐步拆解，經過“核心元素識別”、“潛在歧義分析”和“細節補充”等多個思考步驟，最終生成更加精細化、邏輯嚴謹的提示。

* **專用獎勵模型AlignEvaluator**：為了更客觀地評價生成圖像與用戶意圖的匹配程度，PromptEnhancer 構建了一個名為“AlignEvaluator”的專用獎勵模型。該模型覆蓋了語言理解（如否定指令、代詞指代）、視覺屬性（如物體數量、材質、表情）以及復雜關系（如包含關系、相似關系、反事實場景）等六大類別、二十四個關鍵維度。通過海量標注數據的訓練，AlignEvaluator 能夠針對每個維度對生成圖像給出精確的評分，為提示優化提供了堅實的評估依據。

* **兩階段訓練策略**：
* **第一階段：監督微調（SFT）**：在這一階段，PromptEnhancer 利用監督微調技術對CoT重寫器進行初始化。通過使用由大模型生成的、包含“原始提示-思維鏈-精細化提示”的海量數據進行訓練，確保重寫器能夠生成語確且邏輯清晰的精細化提示。
* **第二階段：基于生成獎勵的策略優化（GRPO）**：在完成監督微調后，PromptEnhancer 進入基于生成獎勵的策略優化階段。它會將重寫器生成的多個候選提示輸入到凍結的T2I模型中，并利用AlignEvaluator對生成的圖像進行評分。通過“獎勵越高的提示越受重視”的強化學習邏輯，不斷優化重寫器的生成策略，使其能夠生成最大化圖像與用戶意圖對齊度的提示。

觸手可及的創新資源

PromptEnhancer 項目為研究者和開發者提供了豐富的資源：

* **項目官網**：https://hunyuan-promptenhancer.github.io/
* **GitHub倉庫**：https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
* **HuggingFace模型庫**：https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt
* **arXiv技術論文**：https://www.arxiv.org/pdf/2509.04545

廣泛的應用前景

PromptEnhancer 的強大功能使其在多個創意領域擁有廣闊的應用前景：

* **廣告設計**：能夠快速生成高質量的廣告海報和宣傳材料，顯著提升設計效率。
* **插畫創作**：輔助插畫師快速生成創意草圖，節省寶貴的設計時間。
* **游戲設計**：為游戲開發者提供快速生成游戲角色、場景和道具概念圖的能力，加速游戲開發流程。
* **社交媒體內容**：幫助創作者快速生成引人注目的社交媒體圖片和視頻，提升內容吸引力。
* **視頻制作**：在視頻內容創作中，能夠生成高質量的視頻幀或概念圖，為視頻剪輯和特效制作提供有力支持。

閱讀原文