GPT-5和Gemini誰更強？——一個在讀博士科研日常視角的分析

AIGC動態3天前更新叫我Alonzo就好了

3 0 0

文章導讀：

本文深入剖析了GPT與Gemini在日常工作中的實際應用表現，特別是在調研、文檔整理、編程及人文探討等多個維度。作者意外發現GPT在調研方面表現遠超Gemini，盡管后者擁有Google強大的搜索資源，但其搜索觸發機制的不可控性成為一大短板。反觀Gemini，則在文檔整理方面展現出更佳的效率和準確性，尤其是在處理超長文檔時，GPT的Agent模式表現出色。編程方面，兩者各有千秋，Gemini在LaTeX等特定領域更為得心應手，而GPT在深度學習代碼上表現尚可，但在處理復雜BibTeX文件時遇到瓶頸。寫作方面，Gemini以其專業且精煉的表達完勝GPT。人文探討領域，盡管兩者均顯不足，但Gemini偶爾迸發的深刻見解和“懂很多”的驚喜感，使其體驗優于GPT。作者指出，GPT-5 Pro在業務能力上已達到“牛馬”級別，但人文關懷方面有所退步。文章最后提及了Codex的性價比，并表達了對Deep Research模型更新的期待。

調研場景的意外格局：GPT的優勢與Gemini的局限

在信息搜集與研究的日常環節，我原本預期擁有Google Scholar和Google Search加持的Gemini會在這方面大放異彩。然而，實際體驗卻出乎意料：GPT在調研上的整體表現遠勝于Gemini。Gemini的檢索能力并非用戶可控，其是否會啟動網頁搜索很大程度上取決于提示詞的“運氣”。反觀GPT，其擁有明確的網絡搜索接口，并且通過Agent和Deep Research等工具，能夠更主動、更深入地進行信息挖掘，已然替代了我過去依賴Edge和Google Search等傳統搜索引擎的模式。

文檔整理的效率對決：Gemini的細膩與GPT的宏觀

轉向文檔整理工作，Gemini則展現出更勝一籌的實力。GPT-5在未開啟“thinking”或“pro”模式時，信息準確性有待提高，幻覺問題較為常見。一旦啟用這些模式，其處理速度又明顯慢于Gemini。不過，GPT在處理超長文檔時，例如將百余行論文列表整理成Markdown表格，其Agent模式表現出色。相較之下，Gemini在處理同類任務時，經常出現截斷和卡死的情況，用戶體驗不佳。

編程能力的細分戰場：Gemini的刁鉆與GPT的通用

在編程領域，模型的能力表現呈現出場景化的差異。對于深度學習相關的代碼，當前大部分模型都能勝任，因為這些代碼相對而言較為“玩具化”。但在一些更為刁鉆的場景，Gemini反而能脫穎而出。例如，在生成LaTeX代碼、調整雙欄至單欄的轉換、增刪列、樣式修改以及數據高亮等方面，Gemini表現得游刃有余。GPT則面臨老問題：開啟“thinking”模式速度慢，不開啟則精度不足，整體使用體驗并不理想。此外，GPT的Agent模式在處理復雜代碼任務時似乎也力不從心，例如我曾嘗試讓GPT Agent處理一個包含20-30個引用的千行BibTeX文件，但最終生成的清洗結果完全無法使用。

寫作體驗的顛覆：Gemini的專業性與GPT的平淡

值得特別提及的是Gemini在寫作方面的能力，其表現完爆GPT，這是我個人的真實使用感受。Gemini似乎經過了大量學術寫作語料的訓練，其輸出的文字，包括公式和符號的表達，都極為專業，只需稍作潤色即可直接使用。相比之下，GPT在這一方面的體驗則顯得平淡許多。

人文探討的深度感知：Gemini的驚喜與GPT的“牛馬化”

在人文社會科學的探討方面，當前LLM整體表現仍顯不足，對于哲學、經濟、社會現象等深入議題的理解尚顯粗淺。即便如此，Gemini在實際使用中的體驗依然優于GPT。Gemini有時會冒出令人驚喜的觀點，或許得益于其龐大的模型基礎。它能展現出一種“無所不知”的博學感。而GPT在這一領域的表現則可以說是最大的倒退。相較于之前的版本，GPT-4o的共情能力大幅減弱，如今更像是一個業務能力超強的“牛馬”。在進行深度對話時，它常常以一種“空心人”的姿態出現，動輒給出“最小可行清單”，有時顯得略微油膩。

GPT-5 Pro的強大與Codex的性價比

盡管指出了GPT-5當前版本的一些不足，但毋庸置疑的是，作為最新一代模型，其能力仍處于斷檔式領先地位。GPT-5 Pro在研究深度上的表現令人驚嘆，其已然進化成一個業務能力極為變態的“牛馬”（作者戲稱為Sam所說的“PhD”）。如果GPT-5 Pro成為我的同事，我可能會面臨巨大的競爭壓力。此外，Codex在性價比方面表現出色。我一直好奇Deep Research的基座模型何時能夠更新，據說目前使用的是o3或4o。我已徹底放棄Deep Research，轉而使用GPT-5 Pro配合網頁搜索/Agent。

閱讀原文