接力DeepSeek,階躍星辰直接開源兩款國產(chǎn)多模態(tài)大模型
視頻+語音多模態(tài)大模型,SOTA 且開源。

原標(biāo)題:接力DeepSeek,階躍星辰直接開源兩款國產(chǎn)多模態(tài)大模型
文章來源:機器之心
內(nèi)容字數(shù):7735字
階躍星辰開源兩款多模態(tài)大模型,性能領(lǐng)跑行業(yè)
近日,國內(nèi)AI創(chuàng)業(yè)公司階躍星辰與吉利汽車集團聯(lián)合開源了兩款多模態(tài)大模型:Step-Video-T2V和Step-Audio。這兩款模型在性能上均位列開源多模態(tài)領(lǐng)域第一,引發(fā)業(yè)界廣泛關(guān)注。
1. Step-Video-T2V:全球參數(shù)量最大、性能最佳的開源視頻生成模型
Step-Video-T2V是全球參數(shù)量最大的開源視頻生成模型,采用MIT許可協(xié)議,支持免費商用。其生成視頻質(zhì)量顯著提升了視頻生成AI能力的上限,在鏡頭調(diào)度、人物姿態(tài)、人物形象和表情等方面表現(xiàn)出色。它能夠?qū)崿F(xiàn)多種鏡頭方式,并擅長生成復(fù)雜的場景,如芭蕾舞、空手道等,生成的畫面逼真、生動,細節(jié)豐富。
為了提升生成效率,研究人員設(shè)計了深度壓縮變分自編碼器Video-VAE,實現(xiàn)了16×16的空間壓縮比,相比傳統(tǒng)模型效率提升64倍。此外,模型還使用了3D全注意力機制和基于視頻的DPO方法,提高了視頻質(zhì)量,減少了偽影。
階躍星辰還開源了針對文生視頻質(zhì)量評測的基準(zhǔn)數(shù)據(jù)集Step-Video-T2V-Eval,用于評估模型性能。評測結(jié)果顯示,Step-Video-T2V在指令遵循、平滑性、物理合理性、美感度等方面全面超越了此前最好的開源模型。
2. Step-Audio:產(chǎn)品級開源語音交互模型,多維度性能領(lǐng)先
Step-Audio是行業(yè)內(nèi)首款產(chǎn)品級開源語音交互模型,能夠根據(jù)不同場景生成不同情緒、方言、語種、歌聲和個性化風(fēng)格的表達。它在反應(yīng)速度、語音自然度、情商等方面表現(xiàn)出色,并支持高質(zhì)量音色復(fù)刻和角色扮演。
在多個主流公開測試集上,Step-Audio的性能均超過同類型開源模型,位列第一。尤其在漢語水平考試六級HSK-6評測中表現(xiàn)突出。其技術(shù)貢獻包括多模態(tài)理解生成一體化、高效合成數(shù)據(jù)鏈路、精細語音控制、擴展工具調(diào)用以及高情商對話與角色扮演等。
3. 階躍星辰:技術(shù)驅(qū)動,持續(xù)引領(lǐng)多模態(tài)大模型發(fā)展
階躍星辰專注于技術(shù)驅(qū)動的發(fā)展思路,持續(xù)投入資源迭代基礎(chǔ)模型,其產(chǎn)品布局涵蓋語音識別、語音生成、視頻理解、圖像生成等多個領(lǐng)域。 公司已發(fā)布11款大模型,多次在國內(nèi)外權(quán)威大模型評測榜單上位列前茅。其AGI路線圖清晰,致力于構(gòu)建Level 2級別的“可預(yù)測視頻基礎(chǔ)模型”,能夠預(yù)測未來并處理更高級的任務(wù)。
階躍星辰的開源舉措,為AI開源社區(qū)注入了新的活力,也展現(xiàn)了中國AI企業(yè)在多模態(tài)大模型領(lǐng)域的領(lǐng)先實力。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號