谷歌最強大模型Gemini 2.0被抬上來了,網(wǎng)友:好科幻
機器之心報道作者:Sia、楊文能搜網(wǎng)頁、寫代碼,還能教你打游戲。OpenAI 接連幾天的「轟炸」,已經(jīng)讓人審美疲勞。作為應(yīng)對,周三,谷歌推出新一代至強 AI 大模型 Gemini 2.0 Flash 。網(wǎng)友體驗先走一波。就模型所看到的內(nèi)容實時對話, 感覺就像科幻小說一樣。通過共享屏幕,實時討論論文,這個研究助理很強啊。讓AI在對話過程中自然地生成圖像。現(xiàn)在,一個提示詞就能生成包含步驟說明和配圖,食譜blog,一步到位。據(jù)谷歌介紹,除了能生成文字外,還能直接生成圖片和語音。不僅如此,2.0 Flash 還能調(diào)用第三方應(yīng)用和服務(wù),比如可以使用谷歌搜索、運行代碼等功能。從今天開始,開發(fā)者可以通過以下幾種方式嘗試使用 2.0 Flash 的測試版:Gemini 的 API 接口谷歌的 AI 開發(fā)平臺:AI Studio 和 Vertex AI不過,生成圖片和語音的功能暫時只對「早期合作伙伴」開放,要等到明年 1 月才會向所有人開放。谷歌表示,在接下來幾個月里,會把 2.0 Flash 的各種版本整合到多個產(chǎn)品中,包括:Android Studio(安卓開發(fā)工具)Chrome 開發(fā)工具Firebase(應(yīng)用開發(fā)平臺)Gemini 代碼助手主力模型Gemini 2.0今天發(fā)布的 Gemini 2.0 Flash 的實驗版本,是 Gemini 2.0 系列的第一個模型,也是當(dāng)前主力模型。它反應(yīng)速度快(低延遲),性能強大,代表了谷歌 Gemini 最頂尖的技術(shù)水平。除了速度是「前任」的 2 倍, 支持圖像、視頻和音頻等多模態(tài)輸入外,2.0 Flash 現(xiàn)在還支持多模態(tài)輸出,比如原生生成的圖像與文本混合,以及可控制的多語言文本轉(zhuǎn)語音( TTS )音頻。它還能夠原生調(diào)用工具,如谷歌搜索、代碼執(zhí)行以及第三方用戶自定義函數(shù)。下面這張圖展示了 Gemini 不同版本在各項測試中的表現(xiàn)對比。總體來看,新模型在編程、數(shù)學(xué)和多模態(tài)處理方面都有明顯提升,特別是在代碼生成方面的進步最為顯著。 有趣的是,在長文本理解( MRCR )這一項上,2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表現(xiàn)差一些,這是少數(shù)幾個沒有進步的指標(biāo)之一。圖表展示了Gemini不同版本在各項測試中的表現(xiàn)對比。Gemini 2.0 Flash 的正式版本將于 1 月份推出。但在此期間,谷歌正在發(fā)布一個 API —— Multimodal Live API(多模態(tài)實時 API ),幫助開發(fā)者構(gòu)建具有實時音頻和視頻流功能的應(yīng)用程序。網(wǎng)友們已經(jīng)快樂地玩耍起來。能幫你畫好下一步棋子的位置。來自X網(wǎng)友@robertriachi使用 Multimodal Live API,開發(fā)者可以創(chuàng)建實時的多模態(tài)應(yīng)用,這些應(yīng)用能夠接收來自攝像頭或屏幕的音頻和視頻輸入。該 API 支持集成各種工具來完成任務(wù),并且能夠處理自然對話模式。比如,對話中的打斷。這和 OpenAI 的 Realtime API 很像。在對話中自然地生成圖像,就像人類時隨手畫個示意圖一樣自然對圖像的后續(xù)編輯一邊處理實時音頻輸入,一邊執(zhí)行數(shù)據(jù)可視化等復(fù)雜任務(wù)Project Astra:通用助手的曙光今年 5 月份,谷歌發(fā)布了通用 AI 助手研究原型 Project Astra ,這是一個多模態(tài) AI 智能體項目,旨在為用戶提供一個能夠理解和響應(yīng)復(fù)雜、動態(tài)真實世界「 AI 助手」。這次,谷歌對搭載了 Gemini 2.0 的最新版本 Project Astra 進行了一系列改進:更流暢的對話:Project Astra 現(xiàn)在能夠用多種語言和混合語言進行交流,對各種口音和生僻詞匯的理解也更加精準(zhǔn)。新工具的運用:借助Gemini 2.0,Project Astra 能夠使用谷歌搜索、谷歌鏡頭和谷歌地圖,使其成為你日常生活中更加得力的助手。更強大的記憶功能:增強了 Project Astra 的記憶能力,并確保你可以控制其記憶。它現(xiàn)在能夠保持長達 10 分鐘的會話記憶,并能記住你過去與它進行的更多對話,從而為你提供更加個性化的服務(wù)。更低的延遲:通過新的流媒體功能和原生音頻理解技術(shù),智能體能夠以接近人類對話的延遲速度理解語言。他們正致力于將這些功能引入谷歌產(chǎn)品,如 Gemini app 以及眼鏡等其他形態(tài)的產(chǎn)品。同時,他們也開始在原型眼鏡上測試 Project Astra。在官方演示視頻中,外國小哥用一部安裝了最新測試版 Project Astra 的 Pixel 手機進行測試。收到一封包含公寓信息的電子郵件后,它可以告訴你公寓大門的密碼,并記住它。只需要使用攝像頭拍攝衣服上的標(biāo)簽和洗衣機上復(fù)雜的按鈕,它就能告訴你這件衣服是否能機洗、漂白、烘干,以及洗衣機該如何使用。還可以把朋友讀過的書發(fā)給它,讓它以此分析出朋友的讀書品味并推薦相關(guān)書籍。偶遇一輛巴士,問它是否可以去唐人街附近。Project Astra不僅可以搜索出該巴士的行駛路線,還能回答出沿線著名地標(biāo)。此外,小哥還戴上原型眼鏡來測試Project Astra,效果相當(dāng)酷炫。只需一個問題指令,它就能進行天氣預(yù)報、告訴你是否可以騎自行車進公園,搜索沿途是否有超市等。Project Mariner:瀏覽器版「賈維斯」Project Mariner 是一個基于 Gemini 2.0 構(gòu)建的早期研究原型。它通過 Chrome 瀏覽器插件,能理解你屏幕上的所有內(nèi)容 —— 不管是文字、代碼、圖片還是表單。它的厲害之處在于,在 WebVoyager 基準(zhǔn)測試中,Project Mariner 作為一個智能體設(shè)置,完成網(wǎng)頁任務(wù)的準(zhǔn)確率達到了 83.5% ,這在目前來說是相當(dāng)不錯的成績。雖然現(xiàn)在可能還有點慢,準(zhǔn)確度也不是百分之百,但這項技術(shù)正在快速進步。為了確保安全,谷歌做了很多防護措施。比如,它只能在你當(dāng)前打開的網(wǎng)頁標(biāo)簽里操作,要做一些重要的事情(比如網(wǎng)購)時,還得先問問你同意不同意。這就像有個助手幫你辦事,但重要決定還是由你來做。Jules:有經(jīng)驗的編程助手Jules 是一個懂編程的智能助理,直接集成在 GitHub 工作流程中。假設(shè)你有一個程序問題需要解決,它能理解問題,制定解決方案,然后在你的指導(dǎo)和監(jiān)督下把代碼寫出來。就像是你多了一個有經(jīng)驗的編程搭檔,能幫你分析問題、規(guī)劃方案、寫代碼,但最終的決定權(quán)還是在你手中。你可以隨時檢查它的工作,確保一切都符合你的要求。游戲及其他領(lǐng)域的智能體谷歌 DeepMind 一直喜歡用游戲來鍛煉 AI 的能力,就像前幾天推出的 Genie 2 ,只要給它一張圖片,它就能創(chuàng)造出可以玩的 3D 世界。現(xiàn)在,他們又在 Gemini 2.0 的基礎(chǔ)上開發(fā)了游戲智能體。它特別有意思,能看懂你在玩什么游戲,理解游戲畫面里發(fā)生的事情,然后實時跟你,給你建議該怎么玩。就像有個資深玩家朋友在旁邊指點你。他們還和 Supercell 這樣的大游戲公司合作,在《部落沖突》這樣的策略游戲和《卡通農(nóng)場》這樣的模擬經(jīng)營游戲中測試 AI 。AI 需要理解不同類型游戲的規(guī)則和挑戰(zhàn),這可不是件容易的事。更厲害的是,這個智能體還能用谷歌搜索,幫你找到網(wǎng)上的游戲攻略和技巧。就像是一個既懂游戲、又知道去哪找答案的玩伴。除了在虛擬世界中探索智能體能力,谷歌還在嘗試將 Gemini 2.0 的空間推理能力應(yīng)用于機器人技術(shù),幫助智能體在現(xiàn)實世界中提供幫助,不過目前仍處于早期階段。參考鏈接:https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/https://x.com/simonw/status/1866942603020910866?THE END轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)投稿或?qū)で髨蟮溃簂iyazhou@jiqizhixin.com