Stable Diffusion 3技術報告流出，Sora構架再立大功！生圖圈開源暴打Midjourney和DALL·E 3？

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：Stable Diffusion 3技術報告流出，Sora構架再立大功！生圖圈開源暴打Midjourney和DALL·E 3？
關鍵字：報告,模型,圖像,文本,作者
文章來源：新智元
內容字數：4780字

內容摘要：

新智元報道編輯：潤
【新智元導讀】Stability AI放出了號稱能暴打閉源模型的Stable Diffusion 3的技術報告，采用DiT構架的新模型在靈活性和性能上都達到了新的高度。Stability AI在發布了Stable Diffusion 3之后，今天公布了詳細的技術報告。
論文深入分析了Stable Diffusion 3的核心技術——改進版的Diffusion模型和一個基于DiT的文生圖全新架構！
報告地址：
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
通過人類評價測試，Stable Diffusion 3在字體設計和對提示的精準響應方面，超過了DALL·E 3、Midjourney v6和Ideogram v1。
Stability AI新開發的多模態擴散Transformer（MMDiT）架構，采用了分別針對圖像和語言表示的權重集，與SD 3的早期版本相比，顯著提升了對文本的理解和文字的拼寫能力。
性能評估在人類反饋的基

原文鏈接：Stable Diffusion 3技術報告流出，Sora構架再立大功！生圖圈開源暴打Midjourney和DALL·E 3？