AIGC動態歡迎閱讀
原標題:Stable Diffusion 3 技術論文解讀:開源能贏得文生圖競賽嗎?|甲子光年
關鍵字:模型,圖像,文本,解讀,知識產權
文章來源:甲子光年
內容字數:9199字
內容摘要:
文生圖模型的下一步是什么?作者|趙健
在大語言模型領域,閉源模型正在贏得比賽,無論是 OpenAI 還是剛剛發布新模型的 Anthropic,都是閉源模型的代表。
但在文生圖領域,開源模型卻表現出了足夠強的競爭力。
2 周前,開源模型的代表企業 Stability AI 發布了最新的文生圖模型 Stable Diffusion 3,采用了與 Sora 相同的底層架構(DiT,Diffusion Transformer),但是沒有公布細節。
昨天,Stability AI 發布研究論文《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》,詳細地介紹了 Stable Diffusion 3 的底層技術。
在該論文里,Stability AI 發布了一種新的多模態 DiT(MMDiT,Multimodal Diffusion Transformer)模型架構,對圖像與語言表示使用單獨的權重集。與之前的 SD3 版本相比,新版本提高了文本理解和拼寫能力。
Stable Diffusion 3 可能是目
原文鏈接:Stable Diffusion 3 技術論文解讀:開源能贏得文生圖競賽嗎?|甲子光年
聯系作者
文章來源:甲子光年
作者微信:jazzyear
作者簡介:甲子光年是一家科技智庫,包含智庫、社群、企業服務版塊,立足中國科技創新前沿陣地,動態跟蹤頭部科技企業發展和傳統產業技術升級案例,推動人工智能、大數據、物聯網、云計算、新能源、新材料、信息安全、大健康等科技創新在產業中的應用與落地。