文生圖參數量升至240億！Playground v3發布：深度融合LLM，圖形設計能力超越人類

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：文生圖參數量升至240億！Playground v3發布：深度融合LLM，圖形設計能力超越人類
關鍵字：模型,圖像,文本,語言,研究人員
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】Playground Research推出了新一代文本到圖像模型PGv3，具備240億參數量，采用深度融合的大型語言模型，實現了在圖形設計和遵循文本提示指令上甚至超越了人類設計師，同時支持精確的RGB顏色控制和多語言識別。自去年以來，文本到圖像生成模型取得了巨大進展，模型的架構從傳統的基于UNet逐漸轉變為基于Transformer的模型。
Playground Research最近發布了一篇論文，詳細介紹了團隊最新的、基于DiT的擴散模型Playground v3（簡稱PGv3），將模型參數量擴展到240億，在多個測試基準上達到了最先進的性能，更擅長圖形設計。論文鏈接：https://arxiv.org/abs/2409.10695
數據鏈接：https://huggingface.co/datasets/playgroundai/CapsBench
與傳統依賴于預訓練語言模型如T5或CLIP文本編碼器的文本到圖像生成模型不同，PGv3完全集成了大型語言模型（LLMs），基于全新的深度融合（Deep-Fusion）架構，利用僅解碼器（decod

原文鏈接：文生圖參數量升至240億！Playground v3發布：深度融合LLM，圖形設計能力超越人類