AIGC動態歡迎閱讀
原標題:Stable Diffusion 3技術報告出爐:揭露Sora同款架構細節
關鍵字:報告,騰訊,模型,文本,圖像
文章來源:量子位
內容字數:5447字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI很快啊,“文生圖新王”Stable Diffusion 3的技術報告,這就來了。
全文一共28頁,誠意滿滿。
“老規矩”,宣傳海報(??)直接用模型生成,再秀一把文字渲染能力:
所以,SD3這比DALL·E 3和Midjourney v6都要強的文字以及指令跟隨技能,究竟怎么點亮的?
技術報告揭露:
全靠多模態擴散Transformer架構MMDiT。
成功關鍵是對圖像和文本表示使用單獨兩組權重的方式,由此實現了比SD3之前的版本都要強的性能飛升。
具體幾何,我們翻開報告來看。
微調DiT,提升文本渲染能力在發布SD3之初,官方就已經透露它的架構和Sora同源,屬于擴散型Transformer——DiT。
現在答案揭曉:
由于文生圖模型需要考慮文本和圖像兩種模式,Stability AI比DiT更近一步,提出了新架構MMDiT。
這里的“MM”就是指“multimodal”。
和Stable Diffusion此前的版本一樣,官方用兩個預訓練模型來獲得合適和文本和圖像表示。
其中文本表示的編碼用三種不同的文本嵌入器(embedders)
原文鏈接:Stable Diffusion 3技術報告出爐:揭露Sora同款架構細節
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...