何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成

再次開宗立派

原標題：何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成
文章來源：量子位
內容字數：3408字

何愷明團隊開創分形生成模型新范式，實現高分辨率圖像逐像素生成

何愷明團隊最新研究成果——分形生成模型（Fractal Generative Models）——開創了生成模型的新范式，首次實現了高分辨率圖像的逐像素生成。這項研究由MIT何愷明團隊和谷歌DeepMind全華人班底合作完成，一作是何愷明的學生黎天鴻。

1. 分形生成模型的核心思想

該模型的核心思想源于數學中的分形理論，即一個幾何形狀可以被分成數個部分，每一部分都（至少近似地）是整體縮小后的形狀。團隊將生成模型抽象為可復用的“原子模塊”，通過遞歸調用這些模塊構建自相似的分形架構，如同套娃。這與何愷明之前的代表作掩碼自編碼器MAE（通過掩蔽圖像區塊并重建缺失像素）有一定的聯系，團隊也結合了MAE的成果進行探索。

2. 高效的逐像素生成策略

為了高效地進行逐像素生成，團隊采用了“分而治之”的策略。他們將自回歸模型作為模塊化單元，每個級別的生成器都能從單個輸入生成多個輸出，從而在少量遞歸級別下實現生成輸出的指數級增長。最終，自回歸模型逐步細化生成過程，從圖像塊到最終像素。

3. 模型的優越性能

該模型在ImageNet數據集上表現出色。在ImageNet 64×64無條件生成上，實現了3.14bits/dim的負對數似然，超越了此前的最佳自回歸模型。在圖像質量上，FractalMAR-H模型達到6.15的FID和348.9的Inception Score。更重要的是，其計算效率提升了4000倍，首次實現了高分辨率圖像的逐像素生成，在ImageNet 256×256數據集上，生成一張圖僅需1.29秒。

4. 模型的應用潛力

該研究不僅在像素級圖像生成上取得突破，還展現了分形方法在處理高維非順序數據（如分子結構、蛋白質等）建模上的潛力，為其他數據領域的應用提供了參考。實驗表明，該模型可以有效預測被掩蔽的像素，并從類標簽中捕獲高級語義。

5. 團隊成員

該研究由MIT何愷明團隊和谷歌DeepMind全華人班底完成，一作黎天鴻本科畢業于清華大學姚班，目前在MIT從事博士后研究；其他成員包括MIT三年級本科生Qinyi Sun和谷歌DeepMind研究科學家范麗杰。

6. 代碼開源

該研究的代碼已開源，方便其他研究者進行學習和應用。

總而言之，何愷明團隊提出的分形生成模型，以其高效性和優越的性能，為高分辨率圖像生成以及高維非順序數據建模開辟了新的道路，具有重要的學術價值和應用前景。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 分形圖像生成 # 計算效率提升 # 逐像素圖像生成 # 高分辨率圖像生成 # 高性能圖像生成模型

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成

再次開宗立派

何愷明團隊開創分形生成模型新范式，實現高分辨率圖像逐像素生成

1. 分形生成模型的核心思想

2. 高效的逐像素生成策略

3. 模型的優越性能

4. 模型的應用潛力

5. 團隊成員

6. 代碼開源

聯系作者

今晚8點！超強解析Evo2基因組語言模型

500萬TPM+20msTPOT，火山引擎用「AI云原生」重構大模型部署范式

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成

再次開宗立派

何愷明團隊開創分形生成模型新范式，實現高分辨率圖像逐像素生成

1. 分形生成模型的核心思想

2. 高效的逐像素生成策略

3. 模型的優越性能

4. 模型的應用潛力

5. 團隊成員

6. 代碼開源

聯系作者

今晚8點！超強解析Evo2基因組語言模型

500萬TPM+20msTPOT，火山引擎用「AI云原生」重構大模型部署范式

相關文章

暫無評論

ChatGPT

玩虛擬模特？

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成

今晚8點！超強解析Evo2基因組語言模型

500萬TPM+20msTPOT，火山引擎用「AI云原生」重構大模型部署范式