AIGC動態歡迎閱讀
原標題:華為盤古畫畫3.0:業界最大的中文文生圖模型,效果YYDS!
關鍵字:模型,圖像,分辨率,空間,數據
文章來源:算法邦
內容字數:6821字
內容摘要:
直播預告 | 1月17日晚7點,「多模態大模型線上閉門會」正式開講!阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品,攜手劉兆洋、李彥瑋、文束三位青年學者,共同探討多模態大模型的發展與應用,歡迎報名。文章地址:
https://arxiv.org/pdf/2312.16486.pdf
項目地址:
https://pangu-draw.github.io
導言:目前的大規模擴散模型代表了條件圖像合成的巨大飛躍,能夠解釋各種線索,如文本、人體姿勢和邊緣。然而,它們對大量計算資源和廣泛數據收集的依賴仍然是一個瓶頸。另一方面,由于圖像分辨率和潛在空間嵌入結構不兼容,現有的擴散模型(每個模型專門用于不同的控制并在獨特的潛在空間中運行)的集成帶來了挑戰,阻礙了它們的聯合使用。
針對這些限制,本文提出了“PanGu-Draw”,這是一種新型的潛在擴散模型,專為資源高效的文本到圖像合成而設計,能夠適應多種控制信號。首先提出了一種資源高效的時間解耦訓練策略,該策略將單一的文本到圖像模型分解為結構和紋理生成器。每個生成器都使用最大限度地提高數據利用率和計算效率的方案進行訓練,減少了48%的數據準備,減
原文鏈接:華為盤古畫畫3.0:業界最大的中文文生圖模型,效果YYDS!
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發,提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...