DeepFloyd Lab官網
一種新穎、先進的開源文本到圖像模型
網站服務:DeepFloyd Lab。
Contribute to deep-floyd/IF development by creating an account on GitHub.
我們介紹的 DeepFloyd IF 是一種新穎、先進的開源文本到圖像模型,具有高度的逼真性和語言理解能力。DeepFloyd IF 是一個模塊,由一個凍結文本編碼器和三個級聯像素擴散模塊組成:一個基本模型,根據文本提示生成 64×64 px 的圖像;兩個超分辨率模型,分別用于生成分辨率不斷提高的圖像:256×256 px 和 1024×1024 px。該模型的所有階段都使用基于 T5 變換器的凍結文本編碼器來提取文本嵌入,然后將其輸入到具有交叉注意力和注意力池增強功能的 UNet 架構中。結果是一個高效的模型,其性能超過了目前最先進的模型,在 COCO 數據集上獲得了 6.66 分的零鏡頭 FID 分數。我們的工作強調了大型 UNet 架構在級聯擴散模型第一階段的潛力,并描繪了文本到圖像合成的美好前景。
DeepFloyd Lab網址入口
https://github.com/deep-floyd/IF
OpenI小編發現DeepFloyd Lab網站非常受用戶歡迎,請訪問DeepFloyd Lab網址入口試用。
數據評估
關于DeepFloyd Lab特別聲明
本站OpenI提供的DeepFloyd Lab都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 9月 19日 下午9:08收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。
相關導航
暫無評論...