最強(qiáng)文生圖模型架構(gòu)曝光!28頁論文詳解技術(shù)細(xì)節(jié),與Sora“師出同門”
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:最強(qiáng)文生圖模型架構(gòu)曝光!28頁論文詳解技術(shù)細(xì)節(jié),與Sora“師出同門”
關(guān)鍵字:模型,圖像,提示,文本,能力
文章來源:智東西
內(nèi)容字?jǐn)?shù):8435字
內(nèi)容摘要:
消費(fèi)級顯卡可訓(xùn),模型權(quán)重將開源。
作者|香草
編輯|李水青
智東西3月6日報(bào)道,昨天下午,明星創(chuàng)企Stability AI發(fā)布Stable Diffusion 3(SD3)論文,首度披露其最強(qiáng)文生圖大模型背后的技術(shù)細(xì)節(jié),并放出更多新鮮的生成示例。
▲Stable Diffusion 3模型技術(shù)原理論文
與OpenAI近期爆火的文生視頻模型Sora一樣,SD3采用了擴(kuò)散Transformer架構(gòu)DiT,并在其基礎(chǔ)上進(jìn)行改進(jìn)。新架構(gòu)名為MMDiT,其主要突破點(diǎn)在于對文字、圖像兩種模態(tài)的數(shù)據(jù)使用了兩組的權(quán)重,并通過注意力機(jī)制進(jìn)行連接,這使得信息可以在文本和圖像之間流動(dòng),大大提升了模型的語義理解和文字渲染能力。
在SD3放出的示例圖中,包含文字渲染部分的圖像占了很例。下圖的提示詞分別為:漂亮的像素藝術(shù),畫面是一個(gè)魔法師和懸浮文字“Achievement unlocked: Diffusion models can spell now”(成就已解鎖:擴(kuò)散模型可以拼寫了);青蛙坐在20世紀(jì)50年代的一家餐館里,穿著皮夾克,頭戴禮帽,桌上有一個(gè)巨大的漢堡和一個(gè)寫著“froggy friday
原文鏈接:最強(qiáng)文生圖模型架構(gòu)曝光!28頁論文詳解技術(shù)細(xì)節(jié),與Sora“師出同門”
聯(lián)系作者
文章來源:智東西
作者微信:zhidxcom
作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報(bào)道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。