GPT-5和Gemini誰更強?——一個在讀博士科研日常視角的分析

文章導讀:
本文深入剖析了GPT與Gemini在日常工作中的實際應用表現,特別是在調研、文檔整理、編程及人文探討等多個維度。作者意外發現GPT在調研方面表現遠超Gemini,盡管后者擁有Google強大的搜索資源,但其搜索觸發機制的不可控性成為一大短板。反觀Gemini,則在文檔整理方面展現出更佳的效率和準確性,尤其是在處理超長文檔時,GPT的Agent模式表現出色。編程方面,兩者各有千秋,Gemini在LaTeX等特定領域更為得心應手,而GPT在深度學習代碼上表現尚可,但在處理復雜BibTeX文件時遇到瓶頸。寫作方面,Gemini以其專業且精煉的表達完勝GPT。人文探討領域,盡管兩者均顯不足,但Gemini偶爾迸發的深刻見解和“懂很多”的驚喜感,使其體驗優于GPT。作者指出,GPT-5 Pro在業務能力上已達到“牛馬”級別,但人文關懷方面有所退步。文章最后提及了Codex的性價比,并表達了對Deep Research模型更新的期待。
調研場景的意外格局:GPT的優勢與Gemini的局限
在信息搜集與研究的日常環節,我原本預期擁有Google Scholar和Google Search加持的Gemini會在這方面大放異彩。然而,實際體驗卻出乎意料:GPT在調研上的整體表現遠勝于Gemini。Gemini的檢索能力并非用戶可控,其是否會啟動網頁搜索很大程度上取決于提示詞的“運氣”。反觀GPT,其擁有明確的網絡搜索接口,并且通過Agent和Deep Research等工具,能夠更主動、更深入地進行信息挖掘,已然替代了我過去依賴Edge和Google Search等傳統搜索引擎的模式。
文檔整理的效率對決:Gemini的細膩與GPT的宏觀
轉向文檔整理工作,Gemini則展現出更勝一籌的實力。GPT-5在未開啟“thinking”或“pro”模式時,信息準確性有待提高,幻覺問題較為常見。一旦啟用這些模式,其處理速度又明顯慢于Gemini。不過,GPT在處理超長文檔時,例如將百余行論文列表整理成Markdown表格,其Agent模式表現出色。相較之下,Gemini在處理同類任務時,經常出現截斷和卡死的情況,用戶體驗不佳。
編程能力的細分戰場:Gemini的刁鉆與GPT的通用
在編程領域,模型的能力表現呈現出場景化的差異。對于深度學習相關的代碼,當前大部分模型都能勝任,因為這些代碼相對而言較為“玩具化”。但在一些更為刁鉆的場景,Gemini反而能脫穎而出。例如,在生成LaTeX代碼、調整雙欄至單欄的轉換、增刪列、樣式修改以及數據高亮等方面,Gemini表現得游刃有余。GPT則面臨老問題:開啟“thinking”模式速度慢,不開啟則精度不足,整體使用體驗并不理想。此外,GPT的Agent模式在處理復雜代碼任務時似乎也力不從心,例如我曾嘗試讓GPT Agent處理一個包含20-30個引用的千行BibTeX文件,但最終生成的清洗結果完全無法使用。
寫作體驗的顛覆:Gemini的專業性與GPT的平淡
值得特別提及的是Gemini在寫作方面的能力,其表現完爆GPT,這是我個人的真實使用感受。Gemini似乎經過了大量學術寫作語料的訓練,其輸出的文字,包括公式和符號的表達,都極為專業,只需稍作潤色即可直接使用。相比之下,GPT在這一方面的體驗則顯得平淡許多。
人文探討的深度感知:Gemini的驚喜與GPT的“牛馬化”
在人文社會科學的探討方面,當前LLM整體表現仍顯不足,對于哲學、經濟、社會現象等深入議題的理解尚顯粗淺。即便如此,Gemini在實際使用中的體驗依然優于GPT。Gemini有時會冒出令人驚喜的觀點,或許得益于其龐大的模型基礎。它能展現出一種“無所不知”的博學感。而GPT在這一領域的表現則可以說是最大的倒退。相較于之前的版本,GPT-4o的共情能力大幅減弱,如今更像是一個業務能力超強的“牛馬”。在進行深度對話時,它常常以一種“空心人”的姿態出現,動輒給出“最小可行清單”,有時顯得略微油膩。
GPT-5 Pro的強大與Codex的性價比
盡管指出了GPT-5當前版本的一些不足,但毋庸置疑的是,作為最新一代模型,其能力仍處于斷檔式領先地位。GPT-5 Pro在研究深度上的表現令人驚嘆,其已然進化成一個業務能力極為變態的“牛馬”(作者戲稱為Sam所說的“PhD”)。如果GPT-5 Pro成為我的同事,我可能會面臨巨大的競爭壓力。此外,Codex在性價比方面表現出色。我一直好奇Deep Research的基座模型何時能夠更新,據說目前使用的是o3或4o。我已徹底放棄Deep Research,轉而使用GPT-5 Pro配合網頁搜索/Agent。