Goku

Goku – 港大和字節聯合推出的最新視頻生成模型

Goku是一款由香港大學與字節跳動聯合開發的最新視頻生成模型，專注于圖像與視頻的協同生成。其核心優勢在于能夠高效生成高質量視頻，顯著降低廣告視頻制作成本（比傳統方法低100倍）。Goku基于先進的rectified flow Transformer架構，具有多種生成模式，包括文本生成視頻、圖像生成視頻及文本生成圖像等。

Goku是什么

Goku是香港大學與字節跳動合作推出的前沿視頻生成技術，旨在實現圖像和視頻的聯合生成。該模型依托于一流的rectified flow Transformer框架，支持多種生成方式，如文本生成視頻、圖像生成視頻及文本生成圖像等。Goku的主要優勢體現在其出色的視頻生成質量和極低的廣告視頻制作成本（低于傳統方式100倍）。在研發過程中，Goku利用了大規模高質量數據集，包括約3600萬段視頻和1.6億張圖像，結合多模態大語言模型以確保生成內容的語境一致性。該模型還實現了先進的并行處理策略和容錯機制，以確保訓練過程的高效性和穩定性。此外，Goku的擴展版本Goku+專注于廣告場景，能夠生成穩定且表現豐富的視頻內容。

Goku

Goku的主要功能

文本到圖像（Text-to-Image）：根據用戶提供的文本描述生成高質量圖像，確保圖像細節豐富且與文本高度一致。
文本到視頻（Text-to-Video）：通過文本描述生成連貫的視頻，保證視頻中動作流暢且畫面質量高。
圖像到視頻（Image-to-Video）：基于輸入的圖像生成動態視頻，保持視覺風格與語義一致，適用于動畫和視頻創作。
廣告視頻生成（Goku+）：專門為廣告制作而設計，能夠生成高質量的廣告視頻，支持人物與產品的自然互動，大幅降作成本。
虛擬數字人視頻生成：創建逼真的虛擬數字人視頻，展現自然的動作，適合用于虛擬主播和客服等多種場景。
多模態生成：支持多種生成任務，能夠無縫處理圖像、視頻和文本的復雜時空依賴關系。

Goku的技術原理

圖像-視頻聯合VAE：Goku使用3D聯合圖像-視頻變分自編碼器，將圖像和視頻輸入壓縮至共享的潛在空間，從而在統一框架中處理多種媒體格式。
Transformer架構：Goku的模型家族包含2B和8B參數的Transformer架構，基于全注意力機制，能夠有效處理圖像和視頻的復雜時空關系。
校正流公式：Goku利用Rectified Flow（RF）算法，通過線性插值在先驗分布與目標數據分布之間進行訓練，展現出比傳統擴散模型更快的收斂速度。
多階段訓練策略：采用包括圖文語義對齊預訓練、圖像-視頻聯合訓練和針對不同模態的微調的多階段訓練策略，逐步提升生成能力。
大規模高質量數據集：構建了約3600萬段視頻和1.6億張圖像的數據集，運用多種數據過濾和增強技術以提高數據質量。
高效的訓練基礎設施：Goku的訓練基礎設施包括并行策略、細粒度激活檢查點技術和容錯機制，顯著提升了訓練效率與穩定性。