馬斯克大力出奇跡,Grok3 把 o3 干翻了
牛
原標(biāo)題:馬斯克大力出奇跡,Grok3 把 o3 干翻了
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):2723字
馬斯克發(fā)布xAI最強(qiáng)AI模型Grok-3:性能超越GPT-4,挑戰(zhàn)最強(qiáng)
近日,馬斯克旗下xAI公司發(fā)布了其最新的大語言模型Grok-3及其推理版本,并宣稱其為“地球上最聰明的AI”。Grok-3在多個(gè)基準(zhǔn)測試中取得了領(lǐng)先成績,引發(fā)廣泛關(guān)注。本文將對Grok-3的主要特性、性能表現(xiàn)以及未來發(fā)展進(jìn)行總結(jié)。
1. Grok-3的卓越性能
Grok-3在LMSYS Arena盲測中取得了1402分,打破了歷史記錄,并在所有類別中排名第一,超越了DeepSeek R1、GPT-4、Gemini 2 Pro和Claude 3.5等競爭對手。其推理能力尤為突出,在AIME’24、GPQA、LCB Oct-Feb以及AIME’25等測試中均表現(xiàn)出碾壓優(yōu)勢,甚至超過了o3 mini high、DeepSeek R1和Gemini 2 Flash Thinking等頂尖推理模型。
2. Grok-3的核心功能
與前代模型Grok-2相比,Grok-3的計(jì)算量提升了十倍,并具備與GPT-4相同的推理能力(Reasoning)。此外,Grok-3還擁有以下核心功能:
- 推理能力(Reasoning):能夠進(jìn)行深度思考和復(fù)雜的邏輯推理。
- 深度搜索(DeepSearch):類似于OpenAI的deep research,能夠深入理解用戶意圖,選擇相關(guān)事實(shí),并交叉驗(yàn)證不同來源的信息。馬斯克將其稱為“新一代可以理解宇宙的搜索引擎”。
- Big Brain選項(xiàng):允許模型花費(fèi)更多計(jì)算資源進(jìn)行更深入的思考,以解決更復(fù)雜的難題。在創(chuàng)意編程方面表現(xiàn)出色,例如能夠生成可運(yùn)行的結(jié)合《方塊》和《寶石迷陣》的游戲代碼。
3. Grok-3的易用性和未來規(guī)劃
目前,X.com Premium+會(huì)員可以直接體驗(yàn)Grok-3,網(wǎng)頁版和應(yīng)用版功能將在未來一周內(nèi)完善,API將在幾周內(nèi)推出。此外,xAI還將發(fā)布SuperGrok專屬APP,提供優(yōu)先訪問權(quán)限、DeepSearch和Think功能以及更高的圖像生成限制。
xAI計(jì)劃在幾個(gè)月后開源Grok-2,這遵循了其發(fā)布新一代模型后開源上一代模型的策略。
4. 專家和用戶評(píng)價(jià)
xAI首席科學(xué)家Andrej Karpathy表示,Grok-3的推理能力與OpenAI最強(qiáng)的模型o1-pro相當(dāng),甚至略優(yōu)于DeepSeek-R1和Gemini 2.0 Flash Thinking。一些早期用戶也分享了積極的體驗(yàn),例如使用Grok-3生成P5.JS素描和解決復(fù)雜的推理問題。
5. 總結(jié)
Grok-3的發(fā)布標(biāo)志著xAI在大型語言模型領(lǐng)域取得了顯著進(jìn)展。其卓越的性能、強(qiáng)大的推理能力以及創(chuàng)新的功能,使其成為當(dāng)前最具競爭力的AI模型之一。未來,隨著API的推出和功能的完善,Grok-3有望在更多領(lǐng)域得到應(yīng)用,并進(jìn)一步推動(dòng)AI技術(shù)的發(fā)展。
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化