国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最強智能體組團擊斃o1

新智元報道編輯：編輯部 HYZj【新智元導讀】昨天深夜，OpenAI徹底被谷歌，震撼亮相的Gemini 2.0掀起智能體，原生多模態的多項驚人demo預示著：智能體時代，谷歌已經走在了最前面。OpenAI Day 5，風頭被谷歌再一次搶了。就在剛剛，谷歌CEO劈柴、DeepMind CEO哈薩比斯、DeepMind CTO Kavukcuoglu三位大佬聯手官宣：新一代原生多模態模型Gemini 2.0 Flash正式發布！至此，Gemini正式進入2.0時代！從命名來看，Gemini 2.0 Flash很可能是新系列的最小杯，但它的性能已經超越了上一代大哥1.5 Pro，而且速度提高了一倍。甚至，它的性能完全超越o1-preview、o1-mini，僅次于GPT-4o（2024-11-20）。不僅如此，2.0 Flash還具有出色的多語言能力，并可以原生調用谷歌搜索等工具。值得一提的是，Gemini 2.0 Flash非常擅長編碼，在SWE-bench Verified基準上，直接擊敗完整版o1。當然，除了新模型之外，谷歌還帶來了一系列基于Gemini 2.0打造的智能體創新：通用AI助手Project Astra在瀏覽器中進行交互的智能體Project Mariner為開發者打造的AI代碼智能體Jules游戲輔助智能體機器人智能體而這僅僅是一個開始。對于AI智能體來說，2025年將是關鍵之年，而谷歌將憑借著Gemini 2.0支撐起自己的智能體工作流。Gemini 2.0，迄今最強大的AI模型Gemini 1.0和1.5，是第一批原生多模態模型。NotebookLM就是很好的例子，說明了多模態和長上下文可以為人們帶來什么。今天，谷歌專為新智能體時代打造的下一代模型——Gemini 2.0，重磅登場了。這個迄今最強大的模型，能使我們構建更接近通用助手的全新AI智能體。下一步，谷歌會將Gemini 2.0的高級推理功能引入AI Overviews，解決更復雜的主題和多步驟問題，包括高級數學方程、多模態查詢和編碼。Gemini 2.0的進步，得益于谷歌對全棧式AI創新長達十年的投資。它基于定制硬件構建，比如第六代 TPU Trillium。TPU為Gemini 2.0的訓練和推理，提供了100%的支持。Gemini 2.0支持全新的多模態AI智能體，它們能看到、聽到你周圍的世界，還能思考、計劃、記住、采取行動。Gemini 2.0 Flash，原生多模態今天，谷歌發布了Gemini 2.0系列模型中的第一個——Gemini 2.0 Flash的實驗版本。基于谷歌迄今最受開發者歡迎的1.5 Flash，Gemini 2.0 Flash在保持同樣快速響應時間的同時，提供了更強勁的性能表現。值得注意的是，2.0 Flash在關鍵基準測試上不僅超越了1.5 Pro的表現，而且速度提高了一倍。除了支持圖像、視頻和音頻等多模態輸入外，2.0 Flash還支持多模態輸出，包括原生生成的圖文混合內容和可調控的多語言文本轉語音（Text-to-Speech，TTS）功能，并且可以原生調用多種工具，如谷歌搜索、代碼執行以及第三方用戶自定義函數等。在各項基準測試中，相較于前一代1.5 Pro和1.5 Flash，最新2.0 Flash實現了全面的提升，尤其是代碼、數學、推理能力方面。不過，在長上下文、音頻方面，2.0 Flash性能非常有限。目前，Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平臺上，通過Gemini API正式向開發者開放。多模態輸入和文本輸出功能，均可使用。不過，文本轉語音、原生圖像生成功能，現僅向首批合作伙伴開放。為支持開發者構建動態交互式應用，谷歌還同步推出了新的多模態實時API，支持實時音頻、視頻流輸入，并能夠集成調用多種工具組合。對于普通用戶來說，即日就可直接用上2.0 Flash Experimental（網頁端），移動端很快就會上線。另外，正式版模型將于2025年1月份推出，同時將提供更多模型規模選擇。開啟智能體新紀元Gemini 2.0 Flash的面世，標志著AI交互再次進入了全新的階段。最令人興奮的是，2.0 Flash具備了原生的用戶交互界面的能力。同時，它還在多模態推理、長文本理解、復雜指令執行與規劃組合式函數調用、原生工具調用以及更低的延遲，取得多項技術突破。這意味著，用戶可以獲得更加流暢、更直觀的AI交互體智能體體驗。AI智能體的實際應用，是一個充滿無限可能的研究領域。谷歌正通過不斷原型創新，打造出原生用戶界面新體驗：「Project Astra」——探索通用AI助手的未來「Project Mariner」——從瀏覽器入手，探索人類與智能體交互的未來方向「Jules」——專為開發者打造的AI代碼智能體Project Astra：讓多模態AI走入現實生活今年I/O大會上，谷歌大殺器Project Astra首次亮相，在視覺識別和語音交互上，與GPT-4o幾乎不相上下。這一次，得到Gemini 2.0加持后，Project Astra能力也在以下四大方面得到改進：- 更強的對話能力Project Astra現在不僅能夠使用多種語言進行對話，還支持混合語言交談，同時對口音和生僻詞的理解也更加出色。- 擴展的工具集成通過Gemini 2.0，Project Astra可以調用谷歌搜索、Lens和地圖功能，讓其作為日常生活助手變得更加實用。- 增強的記憶能力Project Astra現在可以保持長達10分鐘的對話記憶，并能記住更多用戶之前的對話內容，從而提供更加個性化的服務。- 優化的響應速度借助新的流式處理能力和原生音頻理解技術，Project Astra現在可以以近乎人類對話的速度來理解語言。此外，谷歌還計劃將些功能引入Gemini應用等產品，并進一步擴展到智能眼鏡等其他設備形式。在演示視頻中，研究小哥用裝載了Project Astra的測試版Pixel手機和智能眼鏡向我們展示了Astra的多模態能力。首先，小哥在手機里打開了一封包含公寓信息的郵件，讓Astra幫他識別并記住門禁碼。Astra直接讀屏獲取密碼，告訴了他該如何操作開門，并記住了這個密碼。在視頻的結尾，研究小哥在倫敦逛了一大圈回來，戴著智能眼鏡向Astra詢問門禁碼，Astra準確地回答了出來。小哥讓Astra讀取衣服上的洗滌標簽，Astra馬上給出洗衣建議。接著他又將手機鏡頭轉向洗衣機，詢問Astra該如何操作洗衣機，Astra很快地提供了指導。研究小哥準備出門，于是拿了一份地點清單，請Astra介紹了幾個地方。路過面包店看到司康（scone），小哥順口問了下「scone」發音的問題。隨便指了個街邊的雕塑，Astra就能講出它的來歷。小哥看到倫敦街頭的山羊絨，詢問Astra它適不適合帶回家種。要知道，小哥在提問的時候并沒有告訴Astra他的家在紐約，但Astra記得之前的對話，流暢回答。這體現出Astra的跨會話記憶能力。研究小哥還測試了一下Astra給朋友挑禮物的能力。他在手機里瀏覽了一遍朋友的書單，讓Astra讀屏識別，并總結出這個朋友的閱讀品味。然后小哥挑了幾本書，讓Astra從中挑選最適合的一本。小哥將手機攝像頭對著路邊的一輛公交車，詢問Astra它是否會路過唐人街。對于沿途會路過的地標，Astra也能迅速提供相關信息。Astra的多語言能力也不容小覷，不僅英語溜，還能用法語和語。除了能在手機上使用Astra，Astra還能搭載在智能眼鏡上。視頻中，研究小哥戴著搭載Astra的智能眼鏡上街了，上來就問了一句倫敦的天氣，Astra對答如流。騎行時，Astra還能認出路過的公園并介紹它的信息。小哥準備騎車回公寓，讓Astra查詢沿途有沒有超市。Project Mariner：能幫你完成復雜任務的AI智能體Project Mariner，或許聽起來陌生。但此前曾有外媒爆料稱，谷歌自研全新智能體項目「Project Jarvis」能夠將Chrome任務自動化，并由未來Gemini 2.0版本驅動，預計在今年12月發布。種種跡象表明，賈維斯項目與Project Mariner有極大的關聯。正如博客所述，Project Mariner是一個基于Gemini 2.0構建的早期「研究原型」。它從瀏覽器入手，探索人工智能與人類交互的未來。Project Mariner的核心能力在于，卓越的信息理解和分析，它能夠全面感知瀏覽器屏幕上的各種信息。比如像素級精準識別，以及網頁元素（如文本、代碼、圖像、表單等）智能分析。演示中，打開一個在線谷歌表格——戶外公司，然后喚出Project Mariner（目前是Chrome實驗性擴展程序）。輸入提示「記住這份公司的名單，然后，找到他們的網站，并查找我可以聯系到他們的郵箱。記住這些方便后使用」隨后，智能體讀取了表格中的內容，并了解到了所有公司名稱。通過搜索第一家公司名字，AI智能體點擊查詢后，進入了Benchingmark Climbing的官網主頁，找到右上角「信息」菜單欄中的「關于我們」。一直下滑到網頁末端，找到了這家公司的郵箱地址。接下來，是第二家公司Lunkerhunt，同樣搜索找到官網，公司信息介紹得到郵件地址。在右側對話欄中，你可以清晰看到智能體的推理過程，能夠更清晰理解它的操作。表格中另外兩家公司郵件查找，AI智能體同樣執行如上的重復操作——導航搜索、點擊鏈接、滾動頁面、記錄信息。在瀏覽完第四個網站后，智能體完成了任務，并列出了所有的郵箱地址。以上，我們所看到的能力，其實與Anthropic所展示的Claude 3.5操作計算機界面，執行各種任務的能力幾乎一致。智能體也是巨頭們將在明年，重點布局的方向之一。在業界權威的WebVoyager基準測試中，Project Mariner已交出了令人驚艷的成績單：作為單一AI智能體系統，它在真實網絡任務的端到端測試中，取得了驚人的83.5%成功率。這可能意味著，AI已經能夠相對準確地模仿人類在互聯網上，完成任務的行為。此外，Project Mariner最大的亮點是其嚴格的安全設計，用戶始終可以保持對系統的控制。舉例來說，其操作權限僅限當前瀏覽器的標簽頁，而且僅能執行一些基本操作：輸入、滾動、點擊。若在執行購物等敏感操作之前，必須獲得用戶的最終確認。盡管仍處于早期研究階段，但Project Mariner證明了智能體在瀏覽器中導航的可能性，其意義遠遠超過了技術本身。雖然目前在完成任務時，可能存在準確度不足和速度較慢的問題，但這都將隨著技術迭代快速得到改善。Jules：面向開發者的AI智能體隨著AI代碼助手的迅速發展，它已從基礎的代碼搜索工具進化為深度融入開發者工作流程的智能助手。如今，在評測真實軟件工程任務的基準SWE-bench Verified中，搭載了代碼執行工具的2.0 Flash已經可以取得51.8%的優異成績。得益于2.0 Flash超群的推理速度，智能體能夠快速生成和評估數百個潛在解決方案，并通過現有單元測試和Gemini自身的判斷，篩選出最優方案。想象一下，你的團隊剛剛完成了一次Bug Bash，現在你面臨著一大堆待修復的bug。從今天開始，這些讓人頭大的Python和Javascript編程任務，全部都可以交給由Gemini 2.0驅動的AI代碼智能體——Jules去做了。Jules可以異步工作并與你的GitHub工作流程集成，在你專注于真正想要構建的內容時，它會處理bug修復和其他耗時的任務。Jules會制定全面的多步驟計劃來解決問題，高效地修改多個文件，甚至準備拉取請求（pull request）直接將修復合并回 GitHub。雖然還處于早期階段，但從谷歌內部的使用經驗來看，Jules可以為開發者帶來諸多便利：- 更高的生產力把問題和編程任務交給 Jules，實現高效的異步編程。- 進度跟蹤通過實時更新隨時了解情況，優先處理最需要關注的任務。- 完全的開發者控制審查Jules制定的計劃，根據需要提供反饋或請求調整，并在合適的時候將Jules編寫的代碼合并到項目當中。游戲、機器人AI智能體谷歌DeepMind一直致力于通過游戲來提升AI模型在規則遵循、策略規劃和邏輯推理方面的能力。就在上周，能夠僅從一張圖片就創造出無限種可玩3D世界的Genie 2誕生。秉承這一研究傳統，谷歌基于Gemini 2.0開發了新的AI智能體，能夠協助玩家在視頻游戲的虛擬世界中探索。這些「游戲助手」智能體可以單純依靠觀察屏幕上的動作來理解游戲機制，并通過實時對話為玩家提供下一步行動的建議。此外，它們還能通過接入谷歌搜索，幫助你獲取網絡上海量的游戲攻略和相關知識。目前，谷歌正與Supercell等頂尖游戲開發商展開合作，深入研究這些AI智能體的運作機制，并在不同類型的游戲中測試它們理解游戲規則和應對挑戰的能力，涵蓋從《部落沖突》等策略游戲到《Hay Day》等農場模擬游戲。除了在虛擬世界中探索AI智能體的應用能力，谷歌還在機器人領域進行創新性研究，將Gemini 2.0強大的空間推理能力應用其中，開發能在現實世界中提供實際幫助的AI智能體。下面這些demo，展示了Gemini 2.0玩游戲的強大潛力。注意，過程中沒有任何具體的后訓練或者游戲集成，Agent就可以對音頻、游戲視頻和從網絡獲取的實時信息做出響應。在demo中，研究者對Gemini 2.0說：「我打算玩游戲了，我想確保完成每周的任務。你能看到它們嗎？」Gemini 2.0立刻回答，「是的，我能看見，看起來你需要收集300顆寶石，擊敗10個boss，你已經有10個寶石了。」因為研究者表示自己經常忘記這件事，Gemini 2.0承諾會在游戲過程中留意，提醒她關于任務的事。在另一個demo中，研究者表示在計劃進行一次攻擊，但首先需要訓練一支軍隊，請AI幫他推薦一下軍隊構成。Gemini立刻給出了非常明智的建議: 「根據屏幕左上角你的可用部隊和數量，我們應該訓練巨人、野蠻人、弓箭手和法師的組合。重點是使用巨人來吸收傷害，法師可以對付高輸出防御設施，野蠻人和弓箭手可以處理較弱的建筑。」另外，Gemini 2.0還能自己查攻略。比如幫我們選角色，完成「在Reddit上搜索一下Donetta是什么」這樣的任務。深度研究，個人研究助理來了在智能體方面，谷歌今天還放出了一個名為Deep Research研究助理，并在Gemini Advanced中上線。不過，這項新功能由Gemini 1.5 Pro加持。它可以深入研究復雜的主題，創建報告，并提供相關來源的鏈接。假設你想要完成一篇機器學術論文，主題是關于自動駕駛傳感器的研究趨勢，直接Deep Research。它便會列出一項研究計劃清單，包含了6個要點的信息查找、分析網址、創建報告，點擊「開始研究」。接下來，AI全網搜索分析，并匯總出一份全面詳細的研究報告，包括了清晰的表格分析、搜索的62個網址來源。有了Deep Research，能為我們節省大把的研究時間。參考資料：https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-messagehttps://deepmind.google/technologies/project-astra/

閱讀原文