Stable Diffusion 3技術(shù)報(bào)告流出,Sora構(gòu)架再立大功!生圖圈開源暴打Midjourney和DALL·E 3?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Stable Diffusion 3技術(shù)報(bào)告流出,Sora構(gòu)架再立大功!生圖圈開源暴打Midjourney和DALL·E 3?
關(guān)鍵字:報(bào)告,模型,圖像,文本,作者
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):4780字
內(nèi)容摘要:
新智元報(bào)道編輯:潤(rùn)
【新智元導(dǎo)讀】Stability AI放出了號(hào)稱能暴打閉源模型的Stable Diffusion 3的技術(shù)報(bào)告,采用DiT構(gòu)架的新模型在靈活性和性能上都達(dá)到了新的高度。Stability AI在發(fā)布了Stable Diffusion 3之后,今天公布了詳細(xì)的技術(shù)報(bào)告。
論文深入分析了Stable Diffusion 3的核心技術(shù)——改進(jìn)版的Diffusion模型和一個(gè)基于DiT的文生圖全新架構(gòu)!
報(bào)告地址:
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
通過(guò)人類評(píng)價(jià)測(cè)試,Stable Diffusion 3在字體設(shè)計(jì)和對(duì)提示的精準(zhǔn)響應(yīng)方面,超過(guò)了DALL·E 3、Midjourney v6和Ideogram v1。
Stability AI新開發(fā)的多模態(tài)擴(kuò)散Transformer(MMDiT)架構(gòu),采用了分別針對(duì)圖像和語(yǔ)言表示的權(quán)重集,與SD 3的早期版本相比,顯著提升了對(duì)文本的理解和文字的拼寫能力。
性能評(píng)估在人類反饋的基
原文鏈接:Stable Diffusion 3技術(shù)報(bào)告流出,Sora構(gòu)架再立大功!生圖圈開源暴打Midjourney和DALL·E 3?
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。