Stable Diffusion 3開源秒翻車,畫人好掉san

AIGC動態(tài)歡迎閱讀
原標(biāo)題:Stable Diffusion 3開源秒翻車,畫人好掉san
關(guān)鍵字:模型,翻車,版本,發(fā)現(xiàn),問題
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
明敏 發(fā)自 凹非寺量子位 | 公眾號 QbitAI沒想到……Stable Diffusion 3開源即出現(xiàn)翻車案例。
生成一個躺在草地上的女孩,結(jié)果長這樣?
而且不是個例,只要是和人(整體)相關(guān)的內(nèi)容,生成結(jié)果都有點(diǎn)掉san。
(前方高能)
但如果是局部,比如只生臉,確實(shí)很nice。
清晰度、寫字、寫實(shí)性等方面都有明顯提升。
對于復(fù)雜長提示詞的理解也很到位,有網(wǎng)友發(fā)現(xiàn)提示越長它畫的越好。
那么問題來了,為啥偏偏畫不好人類?
問題可能在于數(shù)據(jù)集先來看看SD3開源的具體情況。
本次開源的版本是Stable Diffusion 3 Medium(中杯)。
它的規(guī)模為20億參數(shù),在筆記本上就能跑了。
官方強(qiáng)調(diào)的屬性有5方面,逐一來看:
整體質(zhì)量和寫實(shí)性
可生成出色的細(xì)節(jié),包括色彩、光線、強(qiáng)寫實(shí)等,帶來靈活風(fēng)格的高質(zhì)量輸出。
通過16通道VAE,成功解決了其他模型的常見缺陷,比如手部和面部的寫實(shí)問題。
提示詞理解
可以理解復(fù)雜長提示,包含空間推理、元素組合、動作、風(fēng)格等。3個文本編碼器可以全部或者組合使用,方便用戶平衡性能和顯存。
有效利用資源
對VRAM占用很低,非常適合在消費(fèi)級GPU上運(yùn)
原文鏈接:Stable Diffusion 3開源秒翻車,畫人好掉san
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號