牛
原標題:馬斯克大力出奇跡,Grok3 把 o3 干翻了
文章來源:大數據文摘
內容字數:2723字
馬斯克發布xAI最強AI模型Grok-3:性能超越GPT-4,挑戰最強
近日,馬斯克旗下xAI公司發布了其最新的大語言模型Grok-3及其推理版本,并宣稱其為“地球上最聰明的AI”。Grok-3在多個基準測試中取得了領先成績,引發廣泛關注。本文將對Grok-3的主要特性、性能表現以及未來發展進行總結。
1. Grok-3的卓越性能
Grok-3在LMSYS Arena盲測中取得了1402分,打破了歷史記錄,并在所有類別中排名第一,超越了DeepSeek R1、GPT-4、Gemini 2 Pro和Claude 3.5等競爭對手。其推理能力尤為突出,在AIME’24、GPQA、LCB Oct-Feb以及AIME’25等測試中均表現出碾壓優勢,甚至超過了o3 mini high、DeepSeek R1和Gemini 2 Flash Thinking等頂尖推理模型。
2. Grok-3的核心功能
與前代模型Grok-2相比,Grok-3的計算量提升了十倍,并具備與GPT-4相同的推理能力(Reasoning)。此外,Grok-3還擁有以下核心功能:
- 推理能力(Reasoning):能夠進行深度思考和復雜的邏輯推理。
- 深度搜索(DeepSearch):類似于OpenAI的deep research,能夠深入理解用戶意圖,選擇相關事實,并交叉驗證不同來源的信息。馬斯克將其稱為“新一代可以理解宇宙的搜索引擎”。
- Big Brain選項:允許模型花費更多計算資源進行更深入的思考,以解決更復雜的難題。在創意編程方面表現出色,例如能夠生成可運行的結合《方塊》和《寶石迷陣》的游戲代碼。
3. Grok-3的易用性和未來規劃
目前,X.com Premium+會員可以直接體驗Grok-3,網頁版和應用版功能將在未來一周內完善,API將在幾周內推出。此外,xAI還將發布SuperGrok專屬APP,提供優先訪問權限、DeepSearch和Think功能以及更高的圖像生成限制。
xAI計劃在幾個月后開源Grok-2,這遵循了其發布新一代模型后開源上一代模型的策略。
4. 專家和用戶評價
xAI首席科學家Andrej Karpathy表示,Grok-3的推理能力與OpenAI最強的模型o1-pro相當,甚至略優于DeepSeek-R1和Gemini 2.0 Flash Thinking。一些早期用戶也分享了積極的體驗,例如使用Grok-3生成P5.JS素描和解決復雜的推理問題。
5. 總結
Grok-3的發布標志著xAI在大型語言模型領域取得了顯著進展。其卓越的性能、強大的推理能力以及創新的功能,使其成為當前最具競爭力的AI模型之一。未來,隨著API的推出和功能的完善,Grok-3有望在更多領域得到應用,并進一步推動AI技術的發展。
聯系作者
文章來源:大數據文摘
作者微信:
作者簡介:普及數據思維,傳播數據文化
相關文章
