年底基座大模型輪番炸場,誰是“多模態(tài)之王”?|甲子光年
多模態(tài)語音、視覺理解及生成火力全開。
原標(biāo)題:年底基座大模型輪番炸場,誰是“多模態(tài)之王”?|甲子光年
文章來源:甲子光年
內(nèi)容字?jǐn)?shù):8195字
階躍星辰:多模態(tài)大模型領(lǐng)跑者,AGI之路上的堅定探索
本文主要講述了AI創(chuàng)業(yè)公司階躍星辰在2025年開年發(fā)布多款大模型,展現(xiàn)其在多模態(tài)領(lǐng)域的技術(shù)實力和對AGI的堅定追求。
1. 基座大模型的生存挑戰(zhàn)與階躍星辰的堅持
2023年,基座大模型曾是AI創(chuàng)業(yè)公司的焦點,但不到兩年時間,許多公司面臨融資難題、技術(shù)與產(chǎn)品選擇困境以及商業(yè)模式驗證等挑戰(zhàn)。一些公司選擇與大廠合作,轉(zhuǎn)向更小規(guī)模、更垂直領(lǐng)域的模型開發(fā)。然而,階躍星辰、智譜等少數(shù)公司依然堅持自研基座大模型,并在融資方面表現(xiàn)出色。階躍星辰在B輪融資后,加速了AGI研發(fā)進(jìn)程,2025年開年發(fā)布6款新模型,展現(xiàn)了其強(qiáng)大的研發(fā)能力和對基座大模型的堅定信念。
2. 階躍星辰的多模態(tài)大模型家族:Step系列的全面升級
階躍星辰的Step系列大模型,以其多模態(tài)能力著稱。此次發(fā)布的六款新模型中,Step-1o系列最為引人注目,它融合了語音、文本、視覺三種模態(tài),并在LMSYS和OpenCompass榜單上獲得雙料國產(chǎn)大模型第一。Step-1o Audio是國內(nèi)首個千億參數(shù)端到端語音大模型;Step-1o Vision在視覺感知和識別方面表現(xiàn)出色,同樣獲得多模態(tài)榜單冠軍;升級后的Step-Video V2在視頻生成方面取得了顯著進(jìn)步,其在物理合理性、空間感知和人物刻畫等方面效果亮眼。此外,Step R-mini推理模型也實現(xiàn)了多模態(tài)場景的推理能力;Step-2 mini和Step文學(xué)大師版則在語言模型方面進(jìn)一步提升了性能和應(yīng)用便捷性。
3. Step系列模型的技術(shù)亮點
Step-1o系列模型實現(xiàn)了原生端到端文本、視覺、語音三模態(tài)生成理解一體化。Step-2 mini通過自研的新型注意力機(jī)制MFA,實現(xiàn)了更快的生成速度和更低的成本。Step-2文學(xué)大師版則專注于創(chuàng)作,避免了“AI味兒”的通病,更貼近真實的文學(xué)風(fēng)格。Step R-mini推理模型則引入了“慢思考”機(jī)制,能夠處理更復(fù)雜的推理問題,并拓展到視覺推理領(lǐng)域。
4. 大模型的下半場:洗牌與AGI的遠(yuǎn)景
文章認(rèn)為,2025年是基座大模型的洗牌之年。海外市場已經(jīng)形成寡頭壟斷,國內(nèi)市場也面臨著激烈的競爭。階躍星辰堅持其AGI技術(shù)路線圖,持續(xù)迭代全類別基模,展現(xiàn)了其技術(shù)理想主義和穩(wěn)健的發(fā)展策略。創(chuàng)始人姜大昕認(rèn)為,多模態(tài)融合和Scaling Law是實現(xiàn)AGI的關(guān)鍵。階躍星辰的持續(xù)努力,為其在AGI的競爭中贏得了先機(jī)。
總而言之,階躍星辰憑借其強(qiáng)大的多模態(tài)技術(shù)實力和對AGI的堅定信念,在競爭激烈的AI大模型領(lǐng)域脫穎而出,成為國內(nèi)多模態(tài)大模型的領(lǐng)跑者。
聯(lián)系作者
文章來源:甲子光年
作者微信:
作者簡介:甲子光年是一家科技智庫,包含智庫、社群、企業(yè)服務(wù)版塊,立足中國科技創(chuàng)新前沿陣地,動態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級案例,推動人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算、新能源、新材料、信息安全、大健康等科技創(chuàng)新在產(chǎn)業(yè)中的應(yīng)用與落地。