登上大模型盲測(cè)榜單全球前十,數(shù)學(xué)及編程能力奪冠。
原標(biāo)題:反超 DeepSeek-V3,新發(fā)布的 Qwen2.5-Max 到底有多牛?
文章來(lái)源:特工宇宙
內(nèi)容字?jǐn)?shù):3901字
國(guó)產(chǎn)大模型崛起:Qwen2.5-Max 驚艷亮相
春節(jié)假期后,AI領(lǐng)域迎來(lái)了一個(gè)令人振奮的消息:阿里巴巴推出的Qwen2.5-Max大模型在多個(gè)權(quán)威榜單上取得了令人矚目的成績(jī),引發(fā)業(yè)界廣泛關(guān)注。這款采用MoE架構(gòu),擁有20萬(wàn)億token預(yù)訓(xùn)練數(shù)據(jù)的模型,不僅在基準(zhǔn)測(cè)試中全面領(lǐng)先開(kāi)源模型,還在多項(xiàng)任務(wù)中與國(guó)際頂尖模型Claude-3.5-Sonnet比肩。
Chatbot Arena榜單:全球第七,超越眾多國(guó)際巨頭
Qwen2.5-Max在備受推崇的Chatbot Arena盲測(cè)榜單中,以1332分位列全球第七,超越了DeepSeek V3、Claude-3.5-Sonnet等國(guó)際主流模型。Chatbot Arena之所以備受認(rèn)可,是因?yàn)槠潺嫶蟮挠脩艋鶖?shù)、多維度的評(píng)估體系以及公正透明的評(píng)測(cè)機(jī)制,確保了結(jié)果的可靠性和權(quán)威性。許多AI領(lǐng)域的大佬都曾公開(kāi)引用或認(rèn)可該榜單的評(píng)判結(jié)果。
值得一提的是,Qwen2.5-Max在數(shù)學(xué)、編程和處理復(fù)雜指令(Hard Prompts)等專業(yè)領(lǐng)域表現(xiàn)尤為突出,甚至在數(shù)學(xué)和編程領(lǐng)域榮獲榜單第一。
實(shí)測(cè)體驗(yàn):卓越的性能展現(xiàn)
為了更深入地了解Qwen2.5-Max的實(shí)際能力,我們通過(guò)阿里云上線的QwenChat平臺(tái)進(jìn)行了測(cè)試。測(cè)試涵蓋了多個(gè)領(lǐng)域,包括數(shù)學(xué)、文學(xué)翻譯、邏輯推理、編程算法和代碼生成等。
數(shù)學(xué)能力:精準(zhǔn)無(wú)誤
在2024年考研數(shù)學(xué)一填空題測(cè)試中,Qwen2.5-Max全部答題正確,解題思路清晰,計(jì)算過(guò)程簡(jiǎn)潔高效。
文學(xué)能力:信達(dá)雅兼?zhèn)?/h5>
我們用OneRepublic在春晚演唱的《Counting Stars》歌詞翻譯來(lái)測(cè)試其文學(xué)能力。Qwen2.5-Max給出的翻譯既準(zhǔn)確傳達(dá)了原文意思,又兼具了優(yōu)美的文學(xué)表達(dá),絲毫不遜色于官方翻譯。
邏輯推理與編程能力:高效精準(zhǔn)
在邏輯推理測(cè)試中,Qwen2.5-Max迅速找到了23枚硬幣分組問(wèn)題的最優(yōu)解。在編程算法測(cè)試中,它優(yōu)雅地生成了廣度優(yōu)先搜索算法的教學(xué)代碼,并支持Artifacts功能,實(shí)現(xiàn)了交互式的展示和實(shí)時(shí)解答。此外,我們還測(cè)試了其修改傳統(tǒng)貪吃蛇游戲規(guī)則并生成代碼的能力,生成的代碼可以立即在線游玩。
通用能力:輕松應(yīng)對(duì)各種挑戰(zhàn)
一些看似簡(jiǎn)單的弱智吧問(wèn)題以及熱門(mén)字母?jìng)€(gè)數(shù)統(tǒng)計(jì)等問(wèn)題,Qwen2.5-Max也能夠輕松應(yīng)對(duì)。
國(guó)產(chǎn)大模型的集體崛起
Qwen2.5-Max的成功并非個(gè)例。在Chatbot Arena榜單上,我們還看到了DeepSeek-V3、智譜 GLM-4-Plus、階躍星辰的 Step-2-16k-exp等國(guó)產(chǎn)大模型的身影,它們同樣名列前茅。這表明中國(guó)在人工智能領(lǐng)域正以前所未有的速度崛起,與國(guó)際領(lǐng)先水平的差距正在快速縮小。
未來(lái)展望:持續(xù)創(chuàng)新,突破邊界
Qwen模型團(tuán)隊(duì)表示,將繼續(xù)通過(guò)規(guī)模化強(qiáng)化學(xué)習(xí)技術(shù)的創(chuàng)新應(yīng)用,提升大語(yǔ)言模型的思維和推理能力,致力于實(shí)現(xiàn)模型智能超越人類認(rèn)知邊界。 DeepSeek團(tuán)隊(duì)展示的從V3到R1的演進(jìn)路徑,也印證了強(qiáng)化學(xué)習(xí)在模型能力提升中的重要作用。 我們有理由相信,未來(lái)Qwen等國(guó)產(chǎn)大模型將會(huì)帶給我們更多驚喜。
這是一個(gè)令人興奮的時(shí)代,國(guó)產(chǎn)大模型的崛起不僅代表著中國(guó)在人工智能領(lǐng)域的重大突破,也預(yù)示著全球人工智能產(chǎn)業(yè)格局的深刻變革。我們期待著見(jiàn)證中國(guó)AI從“跟跑者”向“領(lǐng)跑者”的華麗轉(zhuǎn)身。
聯(lián)系作者
文章來(lái)源:特工宇宙
作者微信:
作者簡(jiǎn)介:Agent Universe,專注于智能體的AI科技媒體。