眾所周知,OpenAI 從去年就開始在瘋狂谷歌發布會,每次都是在谷歌發布會前搞重大模型發布,弄得谷歌發布會當天毫無存在感,一臉茫然。結果搞得曾經的 AI 老大哥 Google 如今在中國網友心中的地位,可能還不如剛出道的 Anthropic(Claude)。但如果你是資深的 AI 人,你一定會像我一樣,在默默驚訝于今年的事態反轉,Google Gemini 模型變得越來越了,甚至大有完爆 GPT 系列模型的勢頭。今夜,我覺得這個奇點降臨了。谷歌這次趕在今晚 OpenAI Day 5 發布會前一小時,宣布發布 Gemini 2.0 模型!有多呢?我直接給你放個海辛姐的一手實測視頻,你們感受下(記得開喇叭):爆點太多,我一時不知道該先講哪個。01爆點一首先你注意到,無論語音還是視覺,都是實時直播狀態(左下角同時開啟麥克風 + 攝像頭)。如果你玩過別的多模態 AI,你一定有深刻的感觸是——AI 味兒太強,比如反應遲鈍,各種不流暢。而這里,Gemini 2.0 的延遲低到我甚至忘了這是 AI,我覺得這反應速度已經比我媽都快了。這絕對是世界上首個,真正把語音 + 視覺全模態能力真正做到實時、無卡頓感交互的 AI 模型。02爆點二Gemini 2.0 的回復太像人了。甚至讓我覺得有點毛骨悚然。這個像人,不止是文本非常的口語化,而且語音語氣也非常到位。一點都沒有其他 AI 模型中的僵硬感和尷尬感。如果拿來做英語外教陪練,真的能被爽到。03爆點三喜歡海辛姐聲音的評論區扣 11104爆點四為了給今天這篇文章配一手實測視頻,陪演貓都已經困的睜不開眼了,請給貓貓點個「贊」或「在看」謝謝。除此之外,Gemini 2.0 甚至還能在實時音頻、視頻流輸入的同時,去組合調用搜索引擎、代碼解釋器等工具。但限于時間原因,這里沒有去做更多測試了。05Gemini 2.0 的成績單如果用一句話形容 Gemini 2.0 的成績單——最小最輕量的 Gemini 2.0 Flash 模型已經超越了上一代谷歌旗艦 Gemini 1.5 Pro 002。谷歌旗艦 Gemini 1.5 Pro 002 是什么概念?我給你們放個老圖——在很多評測中,拳打 GPT-4o,腳踢 Claude 3.5 Sonnet…要知道,Gemini Flash 系列的模型,都跟不要錢一樣,而且速度非常快。但如今卻擁有了強如 GPT-4o 和 Claude3.5Sonnet 的能力,關鍵還是真·實時全模態的。我覺得,谷歌這一把,真的彎道超車,重新奪回 AI 王座了。我還第一時間去問了谷歌 Gemini 2.0 Flash 一個經典問題:有理有據,而且你注意下最下面的計時器,整個回答全部寫完,一共才用了不到 3 秒。根據官方的說法,Gemini 2.0 Flash 現在是體驗版本,開發者可以通過 Google AI Studio 和 Vertex AI 來調用 Gemini 2.0 Flash API 了,均可使用多模態輸入和文本輸出。部分高優先級開發者還可使用原生的 TTS 文本轉語音和圖像生成功能。而視頻里演示的實時多模能力可以通過 Multimodal Live API 來調用。看到這里,你是不是已經覺得谷歌這把發布會已經很了?但我告訴你,這還沒完。Gemini 2.0 不僅多模態能力,Agent 能力同樣非常強——谷歌基于 Gemini 2.0 升級了超級智能體 Project Astra,在 Gemini 2.0 的加持下,不僅多模能力強了很多,工具調用更加自如,而且這個智能體可以記住長達 10 分鐘的對話內容,并且可以回憶起過去與它進行的歷史對話。2. 谷歌基于 Gemini 2.0 還構建了能在瀏覽器中完成復雜電腦操作任務的智能體 Project Mariner。比如它可以直接在瀏覽器里幫你處理 Excel 表格。3. 除此之外,還有面向開發者的 AI 編程智能體;游戲智能體等。這讓我覺得,Agent 時代這次真的來了。06Gemini 高級功能:Deep Research深度研究模式直接放視頻:科研搜索領域也因此變天了。要知道,谷歌學術可是世界上最大的學術搜索引擎。谷歌親自下場做 AI 科研搜索,還直接跟研報生成打通,可能不少創業公司要考慮洗洗睡了。聽我講完了谷歌 Gemini 2.0 發布會,你是不是好奇今晚 OpenAI Day 5 發布會講了啥?講的是,OpenAI 給 Apple Intelligence 開發了 ChatGPT 插件的事兒。我直接把發布會視頻給你們錄下來了,自己看吧,我實在不想強行尬吹。看完這個視頻,我覺得你應該能明白我標題里說的,“今夜谷歌把 OpenAI 狙爆”是什么意思了。這一次,谷歌。END點擊下方名片即刻關注我們
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
暫無評論...