代碼全開源,支持用戶在自定義數據集上微調
原標題:微軟開源視頻Tokenizer新SOTA!顯著優于Cosmos Tokenizer和Open-Sora
文章來源:量子位
內容字數:6069字
微軟開源高性能視頻Tokenizer:VidTok
近日,微軟亞研院、上海交通大學和北京大學的研究人員聯合發布了名為VidTok的開源視頻Tokenizer。該模型在連續和離散Tokenizer,以及不同壓縮率等多種設定下,均顯著優于現有SOTA模型,為視頻生成和世界模型等領域的研究和開發提供了強大的工具。
1. VidTok:高效的視頻數據處理利器
視頻生成模型如Sora和Genie,需要將高維視頻數據轉換為緊湊的視覺Token進行訓練。VidTok作為一種高性能的視頻Tokenizer,能夠高效地完成這一任務。它在PSNR、SSIM、FVD和LPIPS等指標上均表現出色,雷達圖顯示其性能全面領先于Nvidia Cosmos Tokenizer、Open-Sora和CogVideoX等現有模型。
2. VidTok的關鍵特性和優勢
VidTok支持多種設定,包括連續型和離散型Tokenizer、因果型和非因果型模型以及不同的壓縮率。其靈活性和高性能使其能夠適應各種應用場景。具體來說,VidTok:
- 支持連續型Tokenizer的不同視頻壓縮率、隱空間通道數以及因果和非因果模型。
- 支持離散型Tokenizer的不同視頻壓縮率、碼本大小以及因果和非因果模型。
- 采用高效的混合模型架構,結合3D、2D和1D卷積,在降低計算成本的同時保持高重建質量。
- 采用先進的有限標量量化(FSQ)技術,無需顯式學習碼本,提高了訓練穩定性和重建性能。
- 采用分階段訓練策略,將訓練時間縮短50%而重建質量保持不變。
- 開源且支持用戶在自定義數據集上進行微調。
3. VidTok的技術亮點
VidTok的優異性能源于其在模型架構、量化技術和訓練策略上的創新:
- 高效的混合模型架構:巧妙地結合3D、2D和1D卷積,解耦空間和時間采樣,在降低計算成本的同時保持高重建質量。
- 先進的量化技術(FSQ):無需顯式學習碼本,提高訓練穩定性和重建性能,尤其在離散Tokenizer方面表現突出。
- 增強的訓練策略:分階段訓練方法,顯著降低訓練時間,同時保持重建質量。
4. VidTok的意義和未來
VidTok的開源為視頻生成和世界模型領域提供了重要的工具,特別是在許多領先模型仍為閉源的情況下。其支持微調的功能也為后續的應用和研究提供了廣闊的空間。研究人員可以輕松地將VidTok應用于特定領域的數據集,以優化模型性能,推動該領域的發展。
總之,VidTok憑借其高性能、靈活性和易用性,有望成為視頻處理領域的重要工具,為視頻生成、世界模型等人工智能應用帶來新的突破。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...