再次開宗立派
原標題:何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成
文章來源:量子位
內容字數:3408字
何愷明團隊開創分形生成模型新范式,實現高分辨率圖像逐像素生成
何愷明團隊最新研究成果——分形生成模型(Fractal Generative Models)——開創了生成模型的新范式,首次實現了高分辨率圖像的逐像素生成。這項研究由MIT何愷明團隊和谷歌DeepMind全華人班底合作完成,一作是何愷明的學生黎天鴻。
1. 分形生成模型的核心思想
該模型的核心思想源于數學中的分形理論,即一個幾何形狀可以被分成數個部分,每一部分都(至少近似地)是整體縮小后的形狀。團隊將生成模型抽象為可復用的“原子模塊”,通過遞歸調用這些模塊構建自相似的分形架構,如同套娃。 這與何愷明之前的代表作掩碼自編碼器MAE(通過掩蔽圖像區塊并重建缺失像素)有一定的聯系,團隊也結合了MAE的成果進行探索。
2. 高效的逐像素生成策略
為了高效地進行逐像素生成,團隊采用了“分而治之”的策略。他們將自回歸模型作為模塊化單元,每個級別的生成器都能從單個輸入生成多個輸出,從而在少量遞歸級別下實現生成輸出的指數級增長。 最終,自回歸模型逐步細化生成過程,從圖像塊到最終像素。
3. 模型的優越性能
該模型在ImageNet數據集上表現出色。在ImageNet 64×64無條件生成上,實現了3.14bits/dim的負對數似然,超越了此前的最佳自回歸模型。在圖像質量上,FractalMAR-H模型達到6.15的FID和348.9的Inception Score。更重要的是,其計算效率提升了4000倍,首次實現了高分辨率圖像的逐像素生成,在ImageNet 256×256數據集上,生成一張圖僅需1.29秒。
4. 模型的應用潛力
該研究不僅在像素級圖像生成上取得突破,還展現了分形方法在處理高維非順序數據(如分子結構、蛋白質等)建模上的潛力,為其他數據領域的應用提供了參考。實驗表明,該模型可以有效預測被掩蔽的像素,并從類標簽中捕獲高級語義。
5. 團隊成員
該研究由MIT何愷明團隊和谷歌DeepMind全華人班底完成,一作黎天鴻本科畢業于清華大學姚班,目前在MIT從事博士后研究;其他成員包括MIT三年級本科生Qinyi Sun和谷歌DeepMind研究科學家范麗杰。
6. 代碼開源
該研究的代碼已開源,方便其他研究者進行學習和應用。
總而言之,何愷明團隊提出的分形生成模型,以其高效性和優越的性能,為高分辨率圖像生成以及高維非順序數據建模開辟了新的道路,具有重要的學術價值和應用前景。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破