最強文生圖模型架構(gòu)曝光！28頁論文詳解技術(shù)細節(jié)，與Sora“師出同門”

AIGC動態(tài)2年前 (2024)發(fā)布智東西

AIGC動態(tài)歡迎閱讀

原標題：最強文生圖模型架構(gòu)曝光！28頁論文詳解技術(shù)細節(jié)，與Sora“師出同門”
關(guān)鍵字：模型,圖像,提示,文本,能力
文章來源：智東西
內(nèi)容字數(shù)：8435字

內(nèi)容摘要：

消費級顯卡可訓，模型權(quán)重將開源。
作者|香草
編輯|李水青
智東西3月6日報道，昨天下午，明星創(chuàng)企Stability AI發(fā)布Stable Diffusion 3（SD3）論文，首度披露其最強文生圖大模型背后的技術(shù)細節(jié)，并放出更多新鮮的生成示例。
▲Stable Diffusion 3模型技術(shù)原理論文
與OpenAI近期爆火的文生視頻模型Sora一樣，SD3采用了擴散Transformer架構(gòu)DiT，并在其基礎(chǔ)上進行改進。新架構(gòu)名為MMDiT，其主要突破點在于對文字、圖像兩種模態(tài)的數(shù)據(jù)使用了兩組的權(quán)重，并通過注意力機制進行連接，這使得信息可以在文本和圖像之間流動，大大提升了模型的語義理解和文字渲染能力。
在SD3放出的示例圖中，包含文字渲染部分的圖像占了很例。下圖的提示詞分別為：漂亮的像素藝術(shù)，畫面是一個魔法師和懸浮文字“Achievement unlocked: Diffusion models can spell now”（成就已解鎖：擴散模型可以拼寫了）；青蛙坐在20世紀50年代的一家餐館里，穿著皮夾克，頭戴禮帽，桌上有一個巨大的漢堡和一個寫著“froggy friday

原文鏈接：最強文生圖模型架構(gòu)曝光！28頁論文詳解技術(shù)細節(jié)，與Sora“師出同門”

聯(lián)系作者

文章來源：智東西
作者微信：zhidxcom
作者簡介：智能產(chǎn)業(yè)新媒體！智東西專注報道人工智能主導(dǎo)的前沿技術(shù)發(fā)展，和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革，服務(wù)產(chǎn)業(yè)升級。

閱讀原文