GigaTok

GigaTok – 港大聯(lián)合字節(jié)推出用于自回歸圖像生成的視覺分詞器

GigaTok

GigaTok 是一種先進的視覺分詞器，專為自回歸圖像生成設計，擁有高達 30 億的參數(shù)量。其獨特之處在于采用語義正則化技術，將分詞器特征與預訓練視覺編碼器（如 DINOv2）的語義特征進行對齊。這一創(chuàng)新方法有效地限制了潛在空間的復雜度，成功解決了在擴展過程中重建質量與生成質量之間的矛盾。

GigaTok是什么

GigaTok 是一種用于自回歸圖像生成的視覺分詞器，其參數(shù)規(guī)模達到 30 億。通過引入語義正則化技術，GigaTok 有效對齊了分詞器特征與預訓練視覺編碼器（如 DINOv2）的語義特征，從而有效約束了潛在空間的復雜性，解決了視覺分詞器在擴展時面臨的重建質量與生成質量之間的挑戰(zhàn)。此外，GigaTok 采用了一維分詞器架構，顯著提高了可擴展性，優(yōu)先擴展解碼器以更高效地分配計算資源，并引入熵損失來穩(wěn)定大規(guī)模模型的訓練過程。

GigaTok的主要功能

卓越的圖像重建能力：GigaTok 將視覺分詞器擴展至 30 億參數(shù)的規(guī)模，顯著提升了圖像重建的質量。通過語義正則化技術，分詞器特征與預訓練視覺編碼器的語義特征對齊，有效避免了潛在空間復雜度的過高。
增強下游生成效果：在下游自回歸生成任務中，GigaTok 顯示出了優(yōu)異的表現(xiàn)，成功解決了傳統(tǒng)方法中重建質量與生成質量的矛盾。借助語義正則化和優(yōu)化擴展策略，GigaTok 在生成任務中實現(xiàn)了更加出色的質量和泛化能力。
優(yōu)化表示學習：GigaTok 通過擴展視覺分詞器規(guī)模及結合語義正則化，顯著提升了下游自回歸模型的表示學習效果。實驗結果表明，使用 GigaTok 訓練的模型在進行線性探測時準確率有顯著提高。
創(chuàng)新擴展策略：GigaTok 提出了具有一維分詞器架構的創(chuàng)新設計，相比于傳統(tǒng)的二維分詞器，其可擴展性更為出色。優(yōu)先擴展解碼器，并引入熵損失以確保大規(guī)模模型訓練的穩(wěn)定性。

GigaTok的技術原理

混合架構設計：GigaTok 結合了卷積神經網絡（CNN）和 Transformer 的混合架構，達到高效特征提取和潛在空間編碼的目的。編碼部分通過 CNN 塊逐步下采樣圖像，隨后利用 Transformer 層和向量量化器生成離散的潛在編碼。解碼器則利用 Transformer 層和 CNN 解碼器將潛在編碼重建為圖像，支持一維（1D）和二維（2D）分詞器，其中 1D 分詞器在擴展性方面表現(xiàn)更為優(yōu)越。
語義正則化：為了解決分詞器擴展時潛在空間復雜性過高的問題，GigaTok 引入了語義正則化技術。通過將分詞器的特征與預訓練視覺編碼器的語義特征進行對齊，約束潛在空間的復雜性。具體實現(xiàn)上，通過對比學習框架，確保分詞器中間特征與預訓練模型的語義空間一致，從而在擴展模型規(guī)模時保持生成質量。
非對稱擴展策略：在擴展編碼器和解碼器時，GigaTok 優(yōu)先擴展解碼器，以更高效地分配計算資源，避免因編碼器過于復雜而導致潛在空間失控。
熵損失：GigaTok 通過引入熵損失來穩(wěn)定大規(guī)模分詞器的訓練，鼓勵更高的碼本使用率，確保模型在訓練過程中保持穩(wěn)定，避免因復雜度增加而導致的訓練崩潰。

GigaTok的項目地址

項目官網：https://silentview.github.io/GigaTok/
Github倉庫：https://github.com/SilentView/GigaTok
arXiv技術論文：https://arxiv.org/pdf/2504.08736

GigaTok的應用場景

圖像生成與合成：GigaTok 在自回歸圖像生成領域表現(xiàn)卓越，能夠生成高質量圖像，適用于藝術創(chuàng)作、游戲開發(fā)、虛擬現(xiàn)實等多個領域，幫助用戶快速生成符合需求的圖像內容。
圖像編輯與增強：GigaTok 可用于圖像編輯任務，例如將前景物體無縫融合到背景圖像中，提高整體視覺效果。
數(shù)據增強與預訓練：憑借其高效的圖像分詞和重建能力，GigaTok 能為機器學習模型提供優(yōu)質的預訓練數(shù)據。
多模態(tài)學習：GigaTok 的語義正則化技術使其能夠與文本生成模型相結合，實現(xiàn)文本到圖像的生成。因此，其多模態(tài)能力在智能創(chuàng)作、虛擬助手等領域展現(xiàn)出廣闊的應用前景。
醫(yī)學圖像處理：GigaTok 的高保真圖像重建能力可廣泛應用于醫(yī)學圖像的生成與處理，例如生成高質量的醫(yī)學影像以用于診斷或研究。

常見問題

GigaTok的使用難度大嗎？：GigaTok 設計的用戶友好，提供詳細的文檔和示例，便于研究人員和開發(fā)者上手使用。
GigaTok的性能如何？：GigaTok 在各類自回歸圖像生成任務中展現(xiàn)出優(yōu)越的性能，生成的圖像質量高，且在多個評測標準上均有出色表現(xiàn)。
如何獲取GigaTok的最新版本？：用戶可以通過其官網或Github倉庫獲取GigaTok的最新版本和更新信息。

閱讀原文