在“最難AI榜”,拿下中國第一、全球第五。
原標題:登上“最不可能作弊”的榜單,階躍星辰Step-2位列中國大模型第一|甲子光年
文章來源:甲子光年
內容字數:4490字
階躍星辰在LiveBench榜單的驚人表現
2023年11月19日,國際權威榜單LiveBench公布了最新的語言大模型測評結果。中國公司階躍星辰自研的萬億參數語言大模型Step-2-16k-202411(簡稱Step-2)榮獲全球第五,成為唯一進入前十的中國公司,超越多個國際主流模型,展現出強大的技術實力。
1. LiveBench榜單的權威性
LiveBench是由圖靈獎得主楊立昆等機構推出的新興大模型基準測試,以其嚴格的評測標準和特殊的評測機制著稱。它旨在消除“刷榜作弊”的可能性,確保評測結果的客觀性。評估范圍廣泛,至今已評估多個閉源和開源模型。
2. Step-2的卓越性能
階躍星辰的Step-2在IF Average(指令跟隨)方面表現尤為突出,超越所有國內外語言大模型。這表明Step-2在語言生成上具備出色的理解和執行能力。相比于千億參數的Step-1,Step-2在綜合能力上提升了近50%,在編程、邏輯推理和知識理解等方面均有顯著進步。
3. MoE架構的創新
Step-2采用了萬億參數和MoE架構,能夠更有效地處理復雜問題。通過專家共享參數和異構化設計,Step-2確保每個“專家模型”都得到充分訓練,使得其在每次推理時激活的參數量超過多數稠密模型。這一創新設計是Step-2強大能力的根本原因。
4. 全面的戰略布局
階躍星辰不僅專注于大語言模型,同時也積極布局多模態模型,形成了完整的模型矩陣。其快速的模型迭代速度使其在國內外同行中脫穎而出。2024年,階躍星辰已經發布了多個大模型,涵蓋從千億參數到萬億參數的全面能力。
總結
階躍星辰的成功不僅展示了其在大模型研發領域的技術實力,也為實現AGI(通用人工智能)奠定了基礎。隨著AI技術的不斷發展,階躍星辰及其他國產大模型有望在未來創造更多的驚喜。
聯系作者
文章來源:甲子光年
作者微信:
作者簡介:甲子光年是一家科技智庫,包含智庫、社群、企業服務版塊,立足中國科技創新前沿陣地,動態跟蹤頭部科技企業發展和傳統產業技術升級案例,推動人工智能、大數據、物聯網、云計算、新能源、新材料、信息安全、大健康等科技創新在產業中的應用與落地。