AIGC動態歡迎閱讀
原標題:超越擴散模型!自回歸新范式僅需2.9秒就生成高質量圖像,中科大哈工大度小滿出品
關鍵字:圖像,模型,尺度,位置,文本
文章來源:量子位
內容字數:0字
內容摘要:
STAR團隊 投稿自 凹非寺量子位 | 公眾號 QbitAI超越擴散模型!自回歸范式在圖像生成領域再次被驗證——
中科大、哈工大、度小滿等機構提出通用文生圖模型STAR。
僅需2.9秒就可生成高質量圖像,超越當前一眾包括SDXL在內擴散模型的性能。
此外在生成圖像真實度、圖文一致性和人類偏好上均表現優秀。
來看看具體是如何做到的?
自回歸通用文生圖模型STAR擴散模由于其高質量和多元的生成,一度在文生圖領域占有主導地位。
它通過逐步的去噪過程,為圖像生成提供了更強的穩定性和可控性,然而也導致生成過程極其耗時。
而自回歸模型的潛力,在受到大語言模型啟發下,開始在這一領域逐漸被探索。
比如VAR指出是因為自回歸模型逐個預測token的行為不符合圖像模態的特點,提出“next-scale prediction”范式,將視覺自回歸建模為逐個預測更大尺度scale的token map。這一方式避免了原始基于next-token的自回歸方案難以建模圖像模態的問題,重新為視覺生成定義了新的自回歸范式,從而使得生成的圖像具有更高的真實度,不過仍然有很多局限,性能仍落后于擴散模型。
作者提出基于尺度的文
原文鏈接:超越擴散模型!自回歸新范式僅需2.9秒就生成高質量圖像,中科大哈工大度小滿出品
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...