<rt id="8ce4k"></rt>

谷歌最強大模型Gemini 2.0被抬上來了，網(wǎng)友：好科幻

AIGC動態(tài)9個月前發(fā)布機器之心

303 0 0

機器之心報道作者：Sia、楊文能搜網(wǎng)頁、寫代碼，還能教你打游戲。OpenAI 接連幾天的「轟炸」，已經(jīng)讓人審美疲勞。作為應(yīng)對，周三，谷歌推出新一代至強 AI 大模型 Gemini 2.0 Flash 。網(wǎng)友體驗先走一波。就模型所看到的內(nèi)容實時對話，感覺就像科幻小說一樣。通過共享屏幕，實時討論論文，這個研究助理很強啊。讓AI在對話過程中自然地生成圖像。現(xiàn)在，一個提示詞就能生成包含步驟說明和配圖，食譜blog，一步到位。據(jù)谷歌介紹，除了能生成文字外，還能直接生成圖片和語音。不僅如此，2.0 Flash 還能調(diào)用第三方應(yīng)用和服務(wù)，比如可以使用谷歌搜索、運行代碼等功能。從今天開始，開發(fā)者可以通過以下幾種方式嘗試使用 2.0 Flash 的測試版：Gemini 的 API 接口谷歌的 AI 開發(fā)平臺：AI Studio 和 Vertex AI不過，生成圖片和語音的功能暫時只對「早期合作伙伴」開放，要等到明年 1 月才會向所有人開放。谷歌表示，在接下來幾個月里，會把 2.0 Flash 的各種版本整合到多個產(chǎn)品中，包括：Android Studio（安卓開發(fā)工具）Chrome 開發(fā)工具Firebase（應(yīng)用開發(fā)平臺）Gemini 代碼助手主力模型Gemini 2.0今天發(fā)布的 Gemini 2.0 Flash 的實驗版本，是 Gemini 2.0 系列的第一個模型，也是當(dāng)前主力模型。它反應(yīng)速度快（低延遲），性能強大，代表了谷歌 Gemini 最頂尖的技術(shù)水平。除了速度是「前任」的 2 倍，支持圖像、視頻和音頻等多模態(tài)輸入外，2.0 Flash 現(xiàn)在還支持多模態(tài)輸出，比如原生生成的圖像與文本混合，以及可控制的多語言文本轉(zhuǎn)語音（ TTS ）音頻。它還能夠原生調(diào)用工具，如谷歌搜索、代碼執(zhí)行以及第三方用戶自定義函數(shù)。下面這張圖展示了 Gemini 不同版本在各項測試中的表現(xiàn)對比。總體來看，新模型在編程、數(shù)學(xué)和多模態(tài)處理方面都有明顯提升，特別是在代碼生成方面的進步最為顯著。有趣的是，在長文本理解( MRCR )這一項上，2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表現(xiàn)差一些，這是少數(shù)幾個沒有進步的指標(biāo)之一。圖表展示了Gemini不同版本在各項測試中的表現(xiàn)對比。Gemini 2.0 Flash 的正式版本將于 1 月份推出。但在此期間，谷歌正在發(fā)布一個 API —— Multimodal Live API（多模態(tài)實時 API ），幫助開發(fā)者構(gòu)建具有實時音頻和視頻流功能的應(yīng)用程序。網(wǎng)友們已經(jīng)快樂地玩耍起來。能幫你畫好下一步棋子的位置。來自X網(wǎng)友@robertriachi使用 Multimodal Live API，開發(fā)者可以創(chuàng)建實時的多模態(tài)應(yīng)用，這些應(yīng)用能夠接收來自攝像頭或屏幕的音頻和視頻輸入。該 API 支持集成各種工具來完成任務(wù)，并且能夠處理自然對話模式。比如，對話中的打斷。這和 OpenAI 的 Realtime API 很像。在對話中自然地生成圖像，就像人類時隨手畫個示意圖一樣自然對圖像的后續(xù)編輯一邊處理實時音頻輸入，一邊執(zhí)行數(shù)據(jù)可視化等復(fù)雜任務(wù)Project Astra：通用助手的曙光今年 5 月份，谷歌發(fā)布了通用 AI 助手研究原型 Project Astra ，這是一個多模態(tài) AI 智能體項目，旨在為用戶提供一個能夠理解和響應(yīng)復(fù)雜、動態(tài)真實世界「 AI 助手」。這次，谷歌對搭載了 Gemini 2.0 的最新版本 Project Astra 進行了一系列改進：更流暢的對話：Project Astra 現(xiàn)在能夠用多種語言和混合語言進行交流，對各種口音和生僻詞匯的理解也更加精準(zhǔn)。新工具的運用：借助Gemini 2.0，Project Astra 能夠使用谷歌搜索、谷歌鏡頭和谷歌地圖，使其成為你日常生活中更加得力的助手。更強大的記憶功能：增強了 Project Astra 的記憶能力，并確保你可以控制其記憶。它現(xiàn)在能夠保持長達 10 分鐘的會話記憶，并能記住你過去與它進行的更多對話，從而為你提供更加個性化的服務(wù)。更低的延遲：通過新的流媒體功能和原生音頻理解技術(shù)，智能體能夠以接近人類對話的延遲速度理解語言。他們正致力于將這些功能引入谷歌產(chǎn)品，如 Gemini app 以及眼鏡等其他形態(tài)的產(chǎn)品。同時，他們也開始在原型眼鏡上測試 Project Astra。在官方演示視頻中，外國小哥用一部安裝了最新測試版 Project Astra 的 Pixel 手機進行測試。收到一封包含公寓信息的電子郵件后，它可以告訴你公寓大門的密碼，并記住它。只需要使用攝像頭拍攝衣服上的標(biāo)簽和洗衣機上復(fù)雜的按鈕，它就能告訴你這件衣服是否能機洗、漂白、烘干，以及洗衣機該如何使用。還可以把朋友讀過的書發(fā)給它，讓它以此分析出朋友的讀書品味并推薦相關(guān)書籍。偶遇一輛巴士，問它是否可以去唐人街附近。Project Astra不僅可以搜索出該巴士的行駛路線，還能回答出沿線著名地標(biāo)。此外，小哥還戴上原型眼鏡來測試Project Astra，效果相當(dāng)酷炫。只需一個問題指令，它就能進行天氣預(yù)報、告訴你是否可以騎自行車進公園，搜索沿途是否有超市等。Project Mariner：瀏覽器版「賈維斯」Project Mariner 是一個基于 Gemini 2.0 構(gòu)建的早期研究原型。它通過 Chrome 瀏覽器插件，能理解你屏幕上的所有內(nèi)容 —— 不管是文字、代碼、圖片還是表單。它的厲害之處在于，在 WebVoyager 基準(zhǔn)測試中，Project Mariner 作為一個智能體設(shè)置，完成網(wǎng)頁任務(wù)的準(zhǔn)確率達到了 83.5% ，這在目前來說是相當(dāng)不錯的成績。雖然現(xiàn)在可能還有點慢，準(zhǔn)確度也不是百分之百，但這項技術(shù)正在快速進步。為了確保安全，谷歌做了很多防護措施。比如，它只能在你當(dāng)前打開的網(wǎng)頁標(biāo)簽里操作，要做一些重要的事情（比如網(wǎng)購）時，還得先問問你同意不同意。這就像有個助手幫你辦事，但重要決定還是由你來做。Jules：有經(jīng)驗的編程助手Jules 是一個懂編程的智能助理，直接集成在 GitHub 工作流程中。假設(shè)你有一個程序問題需要解決，它能理解問題，制定解決方案，然后在你的指導(dǎo)和監(jiān)督下把代碼寫出來。就像是你多了一個有經(jīng)驗的編程搭檔，能幫你分析問題、規(guī)劃方案、寫代碼，但最終的決定權(quán)還是在你手中。你可以隨時檢查它的工作，確保一切都符合你的要求。游戲及其他領(lǐng)域的智能體谷歌 DeepMind 一直喜歡用游戲來鍛煉 AI 的能力，就像前幾天推出的 Genie 2 ，只要給它一張圖片，它就能創(chuàng)造出可以玩的 3D 世界。現(xiàn)在，他們又在 Gemini 2.0 的基礎(chǔ)上開發(fā)了游戲智能體。它特別有意思，能看懂你在玩什么游戲，理解游戲畫面里發(fā)生的事情，然后實時跟你，給你建議該怎么玩。就像有個資深玩家朋友在旁邊指點你。他們還和 Supercell 這樣的大游戲公司合作，在《部落沖突》這樣的策略游戲和《卡通農(nóng)場》這樣的模擬經(jīng)營游戲中測試 AI 。AI 需要理解不同類型游戲的規(guī)則和挑戰(zhàn)，這可不是件容易的事。更厲害的是，這個智能體還能用谷歌搜索，幫你找到網(wǎng)上的游戲攻略和技巧。就像是一個既懂游戲、又知道去哪找答案的玩伴。除了在虛擬世界中探索智能體能力，谷歌還在嘗試將 Gemini 2.0 的空間推理能力應(yīng)用于機器人技術(shù)，幫助智能體在現(xiàn)實世界中提供幫助，不過目前仍處于早期階段。參考鏈接：https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/https://x.com/simonw/status/1866942603020910866?THE END轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)投稿或?qū)で髨蟮溃簂iyazhou@jiqizhixin.com

閱讀原文