微軟開源視頻Tokenizer新SOTA！顯著優于Cosmos Tokenizer和Open-Sora

代碼全開源，支持用戶在自定義數據集上微調

原標題：微軟開源視頻Tokenizer新SOTA！顯著優于Cosmos Tokenizer和Open-Sora
文章來源：量子位
內容字數：6069字

微軟開源高性能視頻Tokenizer：VidTok

近日，微軟亞研院、上海交通大學和北京大學的研究人員聯合發布了名為VidTok的開源視頻Tokenizer。該模型在連續和離散Tokenizer，以及不同壓縮率等多種設定下，均顯著優于現有SOTA模型，為視頻生成和世界模型等領域的研究和開發提供了強大的工具。

1. VidTok：高效的視頻數據處理利器

視頻生成模型如Sora和Genie，需要將高維視頻數據轉換為緊湊的視覺Token進行訓練。VidTok作為一種高性能的視頻Tokenizer，能夠高效地完成這一任務。它在PSNR、SSIM、FVD和LPIPS等指標上均表現出色，雷達圖顯示其性能全面領先于Nvidia Cosmos Tokenizer、Open-Sora和CogVideoX等現有模型。

2. VidTok的關鍵特性和優勢

VidTok支持多種設定，包括連續型和離散型Tokenizer、因果型和非因果型模型以及不同的壓縮率。其靈活性和高性能使其能夠適應各種應用場景。具體來說，VidTok：

支持連續型Tokenizer的不同視頻壓縮率、隱空間通道數以及因果和非因果模型。
支持離散型Tokenizer的不同視頻壓縮率、碼本大小以及因果和非因果模型。
采用高效的混合模型架構，結合3D、2D和1D卷積，在降低計算成本的同時保持高重建質量。
采用先進的有限標量量化（FSQ）技術，無需顯式學習碼本，提高了訓練穩定性和重建性能。
采用分階段訓練策略，將訓練時間縮短50%而重建質量保持不變。
開源且支持用戶在自定義數據集上進行微調。

3. VidTok的技術亮點

VidTok的優異性能源于其在模型架構、量化技術和訓練策略上的創新：

高效的混合模型架構：巧妙地結合3D、2D和1D卷積，解耦空間和時間采樣，在降低計算成本的同時保持高重建質量。
先進的量化技術（FSQ）：無需顯式學習碼本，提高訓練穩定性和重建性能，尤其在離散Tokenizer方面表現突出。
增強的訓練策略：分階段訓練方法，顯著降低訓練時間，同時保持重建質量。

4. VidTok的意義和未來

VidTok的開源為視頻生成和世界模型領域提供了重要的工具，特別是在許多領先模型仍為閉源的情況下。其支持微調的功能也為后續的應用和研究提供了廣闊的空間。研究人員可以輕松地將VidTok應用于特定領域的數據集，以優化模型性能，推動該領域的發展。

總之，VidTok憑借其高性能、靈活性和易用性，有望成為視頻處理領域的重要工具，為視頻生成、世界模型等人工智能應用帶來新的突破。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # SOTA視頻理解 # 低比特率視頻壓縮 # 開源視頻處理 # 視頻Tokenizer # 高效視頻編碼

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

微軟開源視頻Tokenizer新SOTA！顯著優于Cosmos Tokenizer和Open-Sora

代碼全開源，支持用戶在自定義數據集上微調

微軟開源高性能視頻Tokenizer：VidTok

1. VidTok：高效的視頻數據處理利器

2. VidTok的關鍵特性和優勢

3. VidTok的技術亮點

4. VidTok的意義和未來

聯系作者

HyperAI超神經 X 開源中國 | 本周六，源創會老友們，珠海見！

大模型版生命游戲來了!「AI科學家」背后公司聯手MIT&OpenAI等打造

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

微軟開源視頻Tokenizer新SOTA！顯著優于Cosmos Tokenizer和Open-Sora

代碼全開源，支持用戶在自定義數據集上微調

微軟開源高性能視頻Tokenizer：VidTok

1. VidTok：高效的視頻數據處理利器

2. VidTok的關鍵特性和優勢

3. VidTok的技術亮點

4. VidTok的意義和未來

聯系作者

HyperAI超神經 X 開源中國 | 本周六，源創會老友們，珠海見！

大模型版生命游戲來了!「AI科學家」背后公司聯手MIT&OpenAI等打造

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

微軟開源視頻Tokenizer新SOTA！顯著優于Cosmos Tokenizer和Open-Sora

HyperAI超神經 X 開源中國 | 本周六，源創會老友們，珠海見！