最大參數 300 億!階躍星辰與吉利聯合開源兩款多模態(tài)大模型
開源大模型陣營又添新成員。
原標題:最大參數 300 億!階躍星辰與吉利聯合開源兩款多模態(tài)大模型
文章來源:AI前線
內容字數:4343字
階躍星辰與吉利汽車聯合開源全球最大參數量視頻生成模型
本文總結了2025年2月18日階躍星辰和吉利汽車集團聯合開源兩款Step系列多模態(tài)大模型的新聞要點。
開源兩款大模型
階躍星辰和吉利汽車集團聯合宣布開源兩款Step系列多模態(tài)大模型:Step-Video-T2V和Step-Audio。Step-Video-T2V是全球參數量最大、性能最好的開源視頻生成模型,擁有300億參數,可生成高分辨率視頻;Step-Audio是行業(yè)首款產品級開源語音交互模型,能夠生成多種風格的語音。
吉利汽車的戰(zhàn)略布局
吉利汽車集團CEO淦家閱表示,吉利致力于成為智能汽車AI科技的引領者和普及者,并已搭建了端到端的自研體系和生態(tài)聯盟。星睿AI大模型已與開源模型深度融合,將提升用戶體驗。
階躍星辰的AGI目標
階躍星辰創(chuàng)始人兼CEO姜大昕博士表示,開源的目的是分享技術成果,并與開發(fā)者共同探索多模態(tài)模型技術邊界,推動產業(yè)落地,最終實現AGI(通用人工智能)的目標。
Step-Video-T2V模型詳解
Step-Video-T2V模型參數量達300億,可生成204幀、540P分辨率的高質量視頻。其在復雜、人物刻畫、視覺想象力等方面表現出色,語義理解和指令遵循能力突出。階躍星辰還發(fā)布了新的基準數據集Step-Video-T2V-Eval用于評測文生視頻質量。
Step-Audio模型詳解
Step-Audio模型是行業(yè)首個產品級開源語音交互模型,能夠生成不同情緒、方言、語種和風格的語音,并具備高情商和音色復刻能力。在多個公開測試集中,其性能均高于同類型開源模型。
模型測試與評估
為全面評測開源模型,階躍星辰還開源了Step-Video-T2V-Eval和StepEval-Audio-360基準測試,分別用于評估視頻生成模型和語音交互模型的性能。
體驗方式
用戶可在躍問APP和網頁端體驗Step-Video-T2V的視頻生成能力。
總而言之,此次開源標志著階躍星辰在AGI研發(fā)道路上邁出了重要一步,也為全球開發(fā)者提供了強大的工具,推動了AI技術在視頻生成和語音交互領域的進步,并促進與智能汽車領域的深度融合。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。