視頻+語音多模態大模型,SOTA 且開源。
階躍星辰開源兩款多模態大模型,性能領跑行業
近日,國內AI創業公司階躍星辰與吉利汽車集團聯合開源了兩款多模態大模型:Step-Video-T2V和Step-Audio。這兩款模型在性能上均位列開源多模態領域第一,引發業界廣泛關注。
1. Step-Video-T2V:全球參數量最大、性能最佳的開源視頻生成模型
Step-Video-T2V是全球參數量最大的開源視頻生成模型,采用MIT許可協議,支持免費商用。其生成視頻質量顯著提升了視頻生成AI能力的上限,在鏡頭調度、人物姿態、人物形象和表情等方面表現出色。它能夠實現多種鏡頭方式,并擅長生成復雜的場景,如芭蕾舞、空手道等,生成的畫面逼真、生動,細節豐富。
為了提升生成效率,研究人員設計了深度壓縮變分自編碼器Video-VAE,實現了16×16的空間壓縮比,相比傳統模型效率提升64倍。此外,模型還使用了3D全注意力機制和基于視頻的DPO方法,提高了視頻質量,減少了偽影。
階躍星辰還開源了針對文生視頻質量評測的基準數據集Step-Video-T2V-Eval,用于評估模型性能。評測結果顯示,Step-Video-T2V在指令遵循、平滑性、物理合理性、美感度等方面全面超越了此前最好的開源模型。
2. Step-Audio:產品級開源語音交互模型,多維度性能領先
Step-Audio是行業內首款產品級開源語音交互模型,能夠根據不同場景生成不同情緒、方言、語種、歌聲和個性化風格的表達。它在反應速度、語音自然度、情商等方面表現出色,并支持高質量音色復刻和角色扮演。
在多個主流公開測試集上,Step-Audio的性能均超過同類型開源模型,位列第一。尤其在漢語水平考試六級HSK-6評測中表現突出。其技術貢獻包括多模態理解生成一體化、高效合成數據鏈路、精細語音控制、擴展工具調用以及高情商對話與角色扮演等。
3. 階躍星辰:技術驅動,持續引領多模態大模型發展
階躍星辰專注于技術驅動的發展思路,持續投入資源迭代基礎模型,其產品布局涵蓋語音識別、語音生成、視頻理解、圖像生成等多個領域。 公司已發布11款大模型,多次在國內外權威大模型評測榜單上位列前茅。其AGI路線圖清晰,致力于構建Level 2級別的“可預測視頻基礎模型”,能夠預測未來并處理更高級的任務。
階躍星辰的開源舉措,為AI開源社區注入了新的活力,也展現了中國AI企業在多模態大模型領域的領先實力。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺