Stable Diffusion 3 技術論文解讀：開源能贏得文生圖競賽嗎？｜甲子光年

AIGC動態1年前 (2024)發布甲子光年

AIGC動態歡迎閱讀

原標題：Stable Diffusion 3 技術論文解讀：開源能贏得文生圖競賽嗎？｜甲子光年
關鍵字：模型,圖像,文本,解讀,知識產權
文章來源：甲子光年
內容字數：9199字

內容摘要：

文生圖模型的下一步是什么？作者｜趙健
在大語言模型領域，閉源模型正在贏得比賽，無論是 OpenAI 還是剛剛發布新模型的 Anthropic，都是閉源模型的代表。
但在文生圖領域，開源模型卻表現出了足夠強的競爭力。
2 周前，開源模型的代表企業 Stability AI 發布了最新的文生圖模型 Stable Diffusion 3，采用了與 Sora 相同的底層架構（DiT，Diffusion Transformer），但是沒有公布細節。
昨天，Stability AI 發布研究論文《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》，詳細地介紹了 Stable Diffusion 3 的底層技術。
在該論文里，Stability AI 發布了一種新的多模態 DiT（MMDiT，Multimodal Diffusion Transformer）模型架構，對圖像與語言表示使用單獨的權重集。與之前的 SD3 版本相比，新版本提高了文本理解和拼寫能力。
Stable Diffusion 3 可能是目

原文鏈接：Stable Diffusion 3 技術論文解讀：開源能贏得文生圖競賽嗎？｜甲子光年