Goku – 港大和字節(jié)聯(lián)合推出的最新視頻生成模型
Goku是一款由香港大學(xué)與字節(jié)跳動(dòng)聯(lián)合開發(fā)的最新視頻生成模型,專注于圖像與視頻的協(xié)同生成。其核心優(yōu)勢(shì)在于能夠高效生成高質(zhì)量視頻,顯著降低廣告視頻制作成本(比傳統(tǒng)方法低100倍)。Goku基于先進(jìn)的rectified flow Transformer架構(gòu),具有多種生成模式,包括文本生成視頻、圖像生成視頻及文本生成圖像等。
Goku是什么
Goku是香港大學(xué)與字節(jié)跳動(dòng)合作推出的前沿視頻生成技術(shù),旨在實(shí)現(xiàn)圖像和視頻的聯(lián)合生成。該模型依托于一流的rectified flow Transformer框架,支持多種生成方式,如文本生成視頻、圖像生成視頻及文本生成圖像等。Goku的主要優(yōu)勢(shì)體現(xiàn)在其出色的視頻生成質(zhì)量和極低的廣告視頻制作成本(低于傳統(tǒng)方式100倍)。在研發(fā)過(guò)程中,Goku利用了大規(guī)模高質(zhì)量數(shù)據(jù)集,包括約3600萬(wàn)段視頻和1.6億張圖像,結(jié)合多模態(tài)大語(yǔ)言模型以確保生成內(nèi)容的語(yǔ)境一致性。該模型還實(shí)現(xiàn)了先進(jìn)的并行處理策略和容錯(cuò)機(jī)制,以確保訓(xùn)練過(guò)程的高效性和穩(wěn)定性。此外,Goku的擴(kuò)展版本Goku+專注于廣告場(chǎng)景,能夠生成穩(wěn)定且表現(xiàn)豐富的視頻內(nèi)容。
Goku的主要功能
- 文本到圖像(Text-to-Image):根據(jù)用戶提供的文本描述生成高質(zhì)量圖像,確保圖像細(xì)節(jié)豐富且與文本高度一致。
- 文本到視頻(Text-to-Video):通過(guò)文本描述生成連貫的視頻,保證視頻中動(dòng)作流暢且畫面質(zhì)量高。
- 圖像到視頻(Image-to-Video):基于輸入的圖像生成動(dòng)態(tài)視頻,保持視覺(jué)風(fēng)格與語(yǔ)義一致,適用于動(dòng)畫和視頻創(chuàng)作。
- 廣告視頻生成(Goku+):專門為廣告制作而設(shè)計(jì),能夠生成高質(zhì)量的廣告視頻,支持人物與產(chǎn)品的自然互動(dòng),大幅降作成本。
- 虛擬數(shù)字人視頻生成:創(chuàng)建逼真的虛擬數(shù)字人視頻,展現(xiàn)自然的動(dòng)作,適合用于虛擬主播和客服等多種場(chǎng)景。
- 多模態(tài)生成:支持多種生成任務(wù),能夠無(wú)縫處理圖像、視頻和文本的復(fù)雜時(shí)空依賴關(guān)系。
Goku的技術(shù)原理
- 圖像-視頻聯(lián)合VAE:Goku使用3D聯(lián)合圖像-視頻變分自編碼器,將圖像和視頻輸入壓縮至共享的潛在空間,從而在統(tǒng)一框架中處理多種媒體格式。
- Transformer架構(gòu):Goku的模型家族包含2B和8B參數(shù)的Transformer架構(gòu),基于全注意力機(jī)制,能夠有效處理圖像和視頻的復(fù)雜時(shí)空關(guān)系。
- 校正流公式:Goku利用Rectified Flow(RF)算法,通過(guò)線性插值在先驗(yàn)分布與目標(biāo)數(shù)據(jù)分布之間進(jìn)行訓(xùn)練,展現(xiàn)出比傳統(tǒng)擴(kuò)散模型更快的收斂速度。
- 多階段訓(xùn)練策略:采用包括圖文語(yǔ)義對(duì)齊預(yù)訓(xùn)練、圖像-視頻聯(lián)合訓(xùn)練和針對(duì)不同模態(tài)的微調(diào)的多階段訓(xùn)練策略,逐步提升生成能力。
- 大規(guī)模高質(zhì)量數(shù)據(jù)集:構(gòu)建了約3600萬(wàn)段視頻和1.6億張圖像的數(shù)據(jù)集,運(yùn)用多種數(shù)據(jù)過(guò)濾和增強(qiáng)技術(shù)以提高數(shù)據(jù)質(zhì)量。
- 高效的訓(xùn)練基礎(chǔ)設(shè)施:Goku的訓(xùn)練基礎(chǔ)設(shè)施包括并行策略、細(xì)粒度激活檢查點(diǎn)技術(shù)和容錯(cuò)機(jī)制,顯著提升了訓(xùn)練效率與穩(wěn)定性。
Goku的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://saiyan-world.github.io/goku/
- Github倉(cāng)庫(kù):https://github.com/Saiyan-World/goku
- HuggingFace模型庫(kù):https://huggingface.co/datasets/saiyan-world/Goku
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.04896
Goku的應(yīng)用場(chǎng)景
- 廣告視頻制作:Goku+能夠根據(jù)文本生成高質(zhì)量廣告視頻,支持從文本直接生成視頻、從產(chǎn)品圖像生成互動(dòng)視頻,以及產(chǎn)品展示視頻的制作。
- 虛擬數(shù)字人視頻生成:Goku+可以將文本轉(zhuǎn)化為超現(xiàn)實(shí)的人類視頻,生成超過(guò)20秒的視頻,具備穩(wěn)定的手部動(dòng)作與逼真的面部及身體表情。
- 內(nèi)容創(chuàng)作:Goku可以生成多種場(chǎng)景的視頻,包括動(dòng)畫、自然風(fēng)光、動(dòng)物行為等,為藝術(shù)創(chuàng)作者提供豐富的創(chuàng)作靈感。
- 教育與培訓(xùn):Goku可用于制作生動(dòng)的教育視頻和培訓(xùn)課程,增強(qiáng)教學(xué)效果和趣味性。
- 娛樂(lè)產(chǎn)業(yè):在電影、電視劇和動(dòng)畫制作中,Goku可用于內(nèi)容生成與特效制作,提供高質(zhì)量視頻內(nèi)容,擴(kuò)展創(chuàng)作可能性。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...