LiveBench 榜單比拼,只有一家中國大模型進入前十。
原標題:超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一
文章來源:AI科技評論
內容字數:6885字
中國大模型在LiveBench榜單中的突出表現
根據最新的LiveBench榜單,中國大模型公司階躍星辰的萬億參數語言模型Step-2成功躋身全球前十,成為唯一進入榜單前十的國產大語言模型,位列全球第五。此成績不僅反映了階躍星辰在大模型技術領域的實力,也為國內大模型的發展注入了信心。
1. LiveBench榜單的權威性
LiveBench被譽為“世界上第一個不可玩弄的LLM基準測試”,由著名AI科學家楊立昆等機構聯合推出。該榜單評估模型的多維度能力,涵蓋數學、推理、編程等18項任務,確保評估的權威性和公正性。為了避免數據污染,LiveBench每月更新問題,確保測試的嚴謹性和挑戰性。
2. Step-2的卓越表現
在榜單中,Step-2在指令跟隨(IF Average)方面表現優異,以86.57的高分位列第一,超越包括OpenAI的o1-mini等國際主流模型。該模型不僅能夠生成高質量的文本,還能精確地執行用戶指令,體現出強大的理解和推理能力,滿足復雜的用戶需求。
3. 階躍星辰的技術創新
階躍星辰在萬億參數模型的開發上取得了顯著進展,Step-2采用了MoE架構,突破了多項關鍵技術,具備強大的系統能力。除了語言模型,階躍星辰還推出了多模態模型Step-1.5V,具備視頻理解和圖像識別能力,能夠處理復雜圖文信息,滿足各類應用需求。
4. 產品的實際應用與未來展望
基于Step-2的技術,階躍星辰推出的躍問APP具備智能視覺搜索功能“拍照問”,可以解決用戶在文字和語音描述中的難題。隨著底層模型的不斷優化和產品能力的提升,階躍星辰在大模型領域的未來充滿希望。
總結
階躍星辰通過LiveBench榜單的優異表現,不僅向行業展示了其大模型技術的實力,也為國內大模型的發展樹立了標桿。隨著技術的不斷進步和產品的創新,階躍星辰正在朝著更高的目標邁進,展望未來,期待其在智能助手和多模態領域的進一步突破。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。