接力DeepSeek，階躍星辰直接開源兩款國產(chǎn)多模態(tài)大模型

視頻+語音多模態(tài)大模型，SOTA 且開源。

原標(biāo)題：接力DeepSeek，階躍星辰直接開源兩款國產(chǎn)多模態(tài)大模型
文章來源：機器之心
內(nèi)容字數(shù)：7735字

階躍星辰開源兩款多模態(tài)大模型，性能領(lǐng)跑行業(yè)

近日，國內(nèi)AI創(chuàng)業(yè)公司階躍星辰與吉利汽車集團聯(lián)合開源了兩款多模態(tài)大模型：Step-Video-T2V和Step-Audio。這兩款模型在性能上均位列開源多模態(tài)領(lǐng)域第一，引發(fā)業(yè)界廣泛關(guān)注。

1. Step-Video-T2V：全球參數(shù)量最大、性能最佳的開源視頻生成模型

Step-Video-T2V是全球參數(shù)量最大的開源視頻生成模型，采用MIT許可協(xié)議，支持免費商用。其生成視頻質(zhì)量顯著提升了視頻生成AI能力的上限，在鏡頭調(diào)度、人物姿態(tài)、人物形象和表情等方面表現(xiàn)出色。它能夠?qū)崿F(xiàn)多種鏡頭方式，并擅長生成復(fù)雜的場景，如芭蕾舞、空手道等，生成的畫面逼真、生動，細節(jié)豐富。

為了提升生成效率，研究人員設(shè)計了深度壓縮變分自編碼器Video-VAE，實現(xiàn)了16×16的空間壓縮比，相比傳統(tǒng)模型效率提升64倍。此外，模型還使用了3D全注意力機制和基于視頻的DPO方法，提高了視頻質(zhì)量，減少了偽影。

階躍星辰還開源了針對文生視頻質(zhì)量評測的基準(zhǔn)數(shù)據(jù)集Step-Video-T2V-Eval，用于評估模型性能。評測結(jié)果顯示，Step-Video-T2V在指令遵循、平滑性、物理合理性、美感度等方面全面超越了此前最好的開源模型。

2. Step-Audio：產(chǎn)品級開源語音交互模型，多維度性能領(lǐng)先

Step-Audio是行業(yè)內(nèi)首款產(chǎn)品級開源語音交互模型，能夠根據(jù)不同場景生成不同情緒、方言、語種、歌聲和個性化風(fēng)格的表達。它在反應(yīng)速度、語音自然度、情商等方面表現(xiàn)出色，并支持高質(zhì)量音色復(fù)刻和角色扮演。

在多個主流公開測試集上，Step-Audio的性能均超過同類型開源模型，位列第一。尤其在漢語水平考試六級HSK-6評測中表現(xiàn)突出。其技術(shù)貢獻包括多模態(tài)理解生成一體化、高效合成數(shù)據(jù)鏈路、精細語音控制、擴展工具調(diào)用以及高情商對話與角色扮演等。

3. 階躍星辰：技術(shù)驅(qū)動，持續(xù)引領(lǐng)多模態(tài)大模型發(fā)展

階躍星辰專注于技術(shù)驅(qū)動的發(fā)展思路，持續(xù)投入資源迭代基礎(chǔ)模型，其產(chǎn)品布局涵蓋語音識別、語音生成、視頻理解、圖像生成等多個領(lǐng)域。公司已發(fā)布11款大模型，多次在國內(nèi)外權(quán)威大模型評測榜單上位列前茅。其AGI路線圖清晰，致力于構(gòu)建Level 2級別的“可預(yù)測視頻基礎(chǔ)模型”，能夠預(yù)測未來并處理更高級的任務(wù)。

階躍星辰的開源舉措，為AI開源社區(qū)注入了新的活力，也展現(xiàn)了中國AI企業(yè)在多模態(tài)大模型領(lǐng)域的領(lǐng)先實力。

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# DeepSeek # 國產(chǎn)多模態(tài)大模型 # 多模態(tài)人工智能 # 開源大模型 # 階躍星辰

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

接力DeepSeek，階躍星辰直接開源兩款國產(chǎn)多模態(tài)大模型

視頻+語音多模態(tài)大模型，SOTA 且開源。

階躍星辰開源兩款多模態(tài)大模型，性能領(lǐng)跑行業(yè)

1. Step-Video-T2V：全球參數(shù)量最大、性能最佳的開源視頻生成模型

2. Step-Audio：產(chǎn)品級開源語音交互模型，多維度性能領(lǐng)先

3. 階躍星辰：技術(shù)驅(qū)動，持續(xù)引領(lǐng)多模態(tài)大模型發(fā)展

聯(lián)系作者

在線教程丨3款聲音克隆模型真實測評，GPT-SoVITS精準(zhǔn)拿捏「石磯娘娘」特點

全球最大開源視頻模型，現(xiàn)在也Created in China了，階躍出品

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？