奧特曼:第一次有人求我承諾不會下架一款模型
原標題:GPT-4.5登頂6小時即失守!Grok-3上演1分逆襲
文章來源:量子位
內容字數:1870字
大模型競技場風云變幻:GPT-4.5與Grok-3巔峰對決
近日,大模型競技場競爭激烈,GPT-4.5和馬斯克的新版Grok-3上演了一場精彩的“”。
GPT-4.5短暫登頂
GPT-4.5最初以全任務分類第一名的成績登頂,獲得3000+票數,總分達到1412分。
Grok-3強勢反超
然而,僅僅6小時后,Grok-3便以1411分反超GPT-4.5,成為總榜第一。兩者票數均超過3000,差距僅為一分。Grok-3主要在總體帶風格控制、困難提示詞帶風格控制方面略勝一籌,在其他方面與GPT-4.5不相上下。DeepSeek-R1也表現出色,在數學和困難提示詞帶風格控制分項上與GPT-4.5并列第一。
投票機制引發的爭議
如此迅速的排名變化引發了用戶的質疑。有人解釋稱,競技場存在投票數量門檻,兩個模型先后達到3000票才出現在榜單上,這導致了排名變化的集現。
GPT-4.5口碑逆轉
盡管在競技場上的表現存在爭議,但GPT-4.5的口碑卻在悄然發生逆轉。最初,GPT-4.5因價格昂貴且官方強調的情商優勢并未在初期跑分中體現出來而備受質疑。但隨著時間的推移,越來越多的用戶開始認可其情商方面的能力,OpenAI CEO山姆·奧特曼也對此表示認同,并分享了用戶對其的贊揚以及自己與GPT-4.5的精彩對話。
奧特曼與GPT-4.5的對話
奧特曼分享了GPT-4.5對奧特曼創作的六個單詞小故事“臨近奇點,不清楚在哪一側”的解讀。GPT-4.5認為人類已經進入人工智能重塑人類思想、創造力等方面的新世界,但其影響的具體含義尚不明朗。
GPT-4.5在“狼人殺”AI比賽中獲勝
除了競技場排名,GPT-4.5還在一個類似“狼人殺”的AI模型比賽中奪冠。該比賽要求AI模型進行多輪淘汰賽,包括公開辯論、私下策略制定以及投票淘汰等環節。最終,GPT-4.5在結盟、、背叛等策略運用方面表現出色,甚至優于人類,并獲得由被淘汰參賽者組成的陪審團的認可。
總而言之,大模型競技場的競爭異常激烈,排名變化瞬息萬變。GPT-4.5雖然在競技場排名上經歷了短暫的巔峰和被超越,但其在實際應用和口碑方面都展現出其強大的實力。 這同時也反映出大模型技術發展日新月異,未來還將有更多驚喜和挑戰等待我們。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破