開源生態滾雪球ing
原標題:全球最大開源視頻模型,現在也Created in China了,階躍出品
文章來源:量子位
內容字數:9329字
階躍星辰開源兩款多模態大模型:Step-Video-T2V和Step-Audio
近日,階躍星辰聯合吉利汽車集團開源了兩款多模態大模型:Step-Video-T2V和Step-Audio,引發業界關注。文章詳細介紹了這兩款模型的技術特點、性能表現以及實際應用。
1. Step-Video-T2V:全球參數量最大的開源視頻生成模型
Step-Video-T2V是全球參數量最大的開源視頻生成模型,擁有30B參數量,原生支持中英雙語輸入。其主要技術特點包括:能夠生成最長204幀、540P分辨率的視頻;采用高壓縮比的Video-VAE,大幅提升訓練和生成效率;對DiT模型進行系統優化,確保訓練高效穩定;引入Video-DPO算法,提升視頻生成質量。
在Step-Video-T2V-Eval評測數據集上的表現顯示,該模型在指令遵循、平滑性、物理合理性、美感度等方面均超越此前最佳的開源視頻模型。實際測試也證明了其在復雜場景、人物細節刻畫以及運鏡控制方面的強大能力,生成的視頻畫面流暢、細節豐富,語義理解和指令遵循能力突出。
2. Step-Audio:行業首款產品級開源語音交互大模型
Step-Audio是行業內首個產品級的開源語音交互模型。在階躍自建的StepEval-Audio-360基準測試以及其他主流公開測試集中,其性能均超過同類開源模型,尤其在漢語水平考試六級(HSK-6)評測中表現突出。
Step-Audio能夠生成不同情緒、方言、語種、歌聲和個性化風格的語音,并實現高質量的音色復刻和角色扮演,適用于影視娛樂、社交、游戲等多種場景。
3. 階躍星辰的多模態生態建設
階躍星辰已先后發布11款多模態大模型,并持續保持高頻迭代。其多模態模型在國內外各大權威評測中屢獲佳績,積累了大量的市場和開發者用戶。例如,茶百道已在其數千家門店接入Step-1V模型進行智能巡檢,而多個開發者也選擇階躍的多模態模型API。
此次開源,階躍星辰采用MIT開源協議,并致力于降低產業接入門檻,旨在促進大模型技術的共享與創新,推動人工智能的普惠發展。Step-Audio更提供了一整套實時對話方案,方便開發者直接使用。
4. 中國開源力量的崛起
文章最后指出,中國開源力量正在崛起,并在全球舞臺上展現實力。階躍星辰的開源行動,以及此前DeepSeek-R1的出現,都標志著中國在開源大模型領域取得了顯著進展,并正在改變全球開發者的選擇邏輯。 中國開源力量正在用實力說話,并將在未來的AI大模型世界中扮演重要角色。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破