全球最大開源視頻模型，現在也Created in China了，階躍出品

開源生態滾雪球ing

原標題：全球最大開源視頻模型，現在也Created in China了，階躍出品
文章來源：量子位
內容字數：9329字

階躍星辰開源兩款多模態大模型：Step-Video-T2V和Step-Audio

近日，階躍星辰聯合吉利汽車集團開源了兩款多模態大模型：Step-Video-T2V和Step-Audio，引發業界關注。文章詳細介紹了這兩款模型的技術特點、性能表現以及實際應用。

1. Step-Video-T2V：全球參數量最大的開源視頻生成模型

Step-Video-T2V是全球參數量最大的開源視頻生成模型，擁有30B參數量，原生支持中英雙語輸入。其主要技術特點包括：能夠生成最長204幀、540P分辨率的視頻；采用高壓縮比的Video-VAE，大幅提升訓練和生成效率；對DiT模型進行系統優化，確保訓練高效穩定；引入Video-DPO算法，提升視頻生成質量。

在Step-Video-T2V-Eval評測數據集上的表現顯示，該模型在指令遵循、平滑性、物理合理性、美感度等方面均超越此前最佳的開源視頻模型。實際測試也證明了其在復雜場景、人物細節刻畫以及運鏡控制方面的強大能力，生成的視頻畫面流暢、細節豐富，語義理解和指令遵循能力突出。

2. Step-Audio：行業首款產品級開源語音交互大模型

Step-Audio是行業內首個產品級的開源語音交互模型。在階躍自建的StepEval-Audio-360基準測試以及其他主流公開測試集中，其性能均超過同類開源模型，尤其在漢語水平考試六級（HSK-6）評測中表現突出。

Step-Audio能夠生成不同情緒、方言、語種、歌聲和個性化風格的語音，并實現高質量的音色復刻和角色扮演，適用于影視娛樂、社交、游戲等多種場景。

3. 階躍星辰的多模態生態建設

階躍星辰已先后發布11款多模態大模型，并持續保持高頻迭代。其多模態模型在國內外各大權威評測中屢獲佳績，積累了大量的市場和開發者用戶。例如，茶百道已在其數千家門店接入Step-1V模型進行智能巡檢，而多個開發者也選擇階躍的多模態模型API。

此次開源，階躍星辰采用MIT開源協議，并致力于降低產業接入門檻，旨在促進大模型技術的共享與創新，推動人工智能的普惠發展。Step-Audio更提供了一整套實時對話方案，方便開發者直接使用。

4. 中國開源力量的崛起

文章最后指出，中國開源力量正在崛起，并在全球舞臺上展現實力。階躍星辰的開源行動，以及此前DeepSeek-R1的出現，都標志著中國在開源大模型領域取得了顯著進展，并正在改變全球開發者的選擇邏輯。中國開源力量正在用實力說話，并將在未來的AI大模型世界中扮演重要角色。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # AI視頻生成技術 # 中國人工智能 # 國產AI視頻模型 # 大型語言模型視頻應用 # 開源視頻模型

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

全球最大開源視頻模型，現在也Created in China了，階躍出品

開源生態滾雪球ing

階躍星辰開源兩款多模態大模型：Step-Video-T2V和Step-Audio

1. Step-Video-T2V：全球參數量最大的開源視頻生成模型

2. Step-Audio：行業首款產品級開源語音交互大模型

3. 階躍星辰的多模態生態建設

4. 中國開源力量的崛起

聯系作者

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

DeepSeek，根之技術

相關文章

暫無評論

ChatGPT

玩虛擬模特？