在編程、數學等方面表現格外突出
原標題:杭州超越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!網友:中國AI正在快速縮小差距
文章來源:量子位
內容字數:3067字
阿里Qwen2.5-Max大模型強勢崛起,在Chatbot Arena榜單中排名第七
阿里巴巴最新發布的大語言模型Qwen2.5-Max在全球頂級大模型競技場Chatbot Arena中表現出色,以總分1332的成績位列第七,超越了DeepSeek-V3、Claude 3.5 Sonnet和Llama 3.1 405B等模型。 Chatbot Arena平臺匯集了190多種模型,通過用戶盲測投票的方式評估模型性能,其榜單結果被認為是全球大模型能力最權威的評價之一。
Qwen2.5-Max的突出優勢
1. **編程和數學能力超群:** Qwen2.5-Max在編程和數學方面的表現尤為突出,與滿血o1和DeepSeek-R1并列第一。尤其值得一提的是,在數學榜單上,它是唯一一個非推理模型,取得如此佳績,展現了其強大的邏輯推理能力。
2. **代碼能力強勁:** 與滿血o1進行PK,勝率高達69%。 用戶測試中,它能快速生成簡潔易懂的代碼,例如用JavaScript編寫象棋游戲,并利用Artifacts功能直接運行。
3. **復雜提示詞處理能力出色:** 在復雜提示詞任務中,Qwen2.5-Max與o1-preview并列第二,英文提示詞下甚至排名第一。 例如,它能夠快速準確地分析并解決一個關于團隊工作流程優化的復雜問題,并在不到30秒內給出清晰的結論。
4. **多輪對話和長文本處理能力優秀:** Qwen2.5-Max的多輪對話能力與DeepSeek-R1并列第一,長文本處理能力排名第三,優于o1-preview。
5. **在經典榜單上的優異表現:** 在Arena-Hard、MMLU-Pro等基準測試中,Qwen2.5-Max的表現與GPT-4o和Claude 3.5-Sonnet不相上下甚至更優。在開源基座模型對比中,它也全面超越了DeepSeek-V3和Llama 3.1-405B。
Qwen2.5-Max的實際應用及用戶反饋
Qwen2.5-Max已在Qwen Chat平臺上線,并提供阿里云百煉API接口供企業用戶調用。眾多用戶實測后對其代碼、推理能力給予了高度評價,認為其表現穩定,生成的代碼簡潔易用,并且在處理復雜問題時速度快且準確。一些用戶甚至表示Qwen很快會取代硅谷的普通模型。
總結
Qwen2.5-Max的出現標志著中國AI技術正在快速發展,并逐漸縮小與國際領先水平的差距。其在多個領域的突出表現,特別是代碼和數學方面的卓越能力,使其成為一個極具競爭力的大語言模型,值得期待其未來的發展。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破