超越擴散模型！自回歸新范式僅需2.9秒就生成高質量圖像，中科大哈工大度小滿出品

AIGC動態歡迎閱讀

原標題：超越擴散模型！自回歸新范式僅需2.9秒就生成高質量圖像，中科大哈工大度小滿出品
關鍵字：圖像,模型,尺度,位置,文本
文章來源：量子位
內容字數：0字

內容摘要：

STAR團隊投稿自凹非寺量子位 | 公眾號 QbitAI超越擴散模型！自回歸范式在圖像生成領域再次被驗證——
中科大、哈工大、度小滿等機構提出通用文生圖模型STAR。
僅需2.9秒就可生成高質量圖像，超越當前一眾包括SDXL在內擴散模型的性能。
此外在生成圖像真實度、圖文一致性和人類偏好上均表現優秀。
來看看具體是如何做到的？
自回歸通用文生圖模型STAR擴散模由于其高質量和多元的生成，一度在文生圖領域占有主導地位。
它通過逐步的去噪過程，為圖像生成提供了更強的穩定性和可控性，然而也導致生成過程極其耗時。
而自回歸模型的潛力，在受到大語言模型啟發下，開始在這一領域逐漸被探索。
比如VAR指出是因為自回歸模型逐個預測token的行為不符合圖像模態的特點，提出“next-scale prediction”范式，將視覺自回歸建模為逐個預測更大尺度scale的token map。這一方式避免了原始基于next-token的自回歸方案難以建模圖像模態的問題，重新為視覺生成定義了新的自回歸范式，從而使得生成的圖像具有更高的真實度，不過仍然有很多局限，性能仍落后于擴散模型。
作者提出基于尺度的文

原文鏈接：超越擴散模型！自回歸新范式僅需2.9秒就生成高質量圖像，中科大哈工大度小滿出品