顛覆想象!Gemini 2.0震撼發布:超越1.5 Pro的多模態智能助手,音頻與圖片一鍵生成!
原生多模態輸入、輸出的大模型時代來了。
原標題:Gemini 2.0發布!主打Agent+多模態,性能超1.5 Pro、可直接生成音頻、圖片
文章來源:Founder Park
內容字數:5816字
谷歌發布Gemini 2.0 Flash,開啟多模態輸入輸出時代
谷歌在發布Gemini 2.0 Flash后,標志著原生多模態輸入輸出的大模型時代的到來。DeepMind首席執行官哈薩比斯表示,Gemini 2.0的表現與當前的1.5 Pro型號相當,但在成本效益、性能效率和速度上都有顯著提升。
1. 強大的多模態能力
Gemini 2.0 Flash不僅能夠生成音頻和圖像,還引入了新的多模態能力。該模型支持多種輸入形式,包括圖片、視頻和音頻,并能生成圖像與文本的混合內容,以及可控的多語言文本轉語音(TTS)音頻。開發者可以通過單一API調用實現集成響應,這一功能將于明年全面推廣。
2. Project Astra的重大更新
基于Gemini 2.0 Flash,谷歌的通用助手Project Astra經歷了多項功能更新。它能夠更流暢地進行多語言對話,理解不同口音,并能夠使用Google Search、Google Lens和Google Maps等工具來增強日常助手功能。此外,Project Astra的記憶能力得到了提升,能夠記住長達10分鐘的對話內容。
3. Project Mariner與瀏覽器Agent
Project Mariner是一個基于Gemini 2.0的瀏覽器Agent,能夠理解和推理網頁信息,完成復雜任務。盡管目前僅限于受信任的測試人員使用,但它在WebVoyager基準測試中展現了出色的工作效率,達到了83.5%。
4. AI代碼助手Jules
基于Gemini 2.0的AI代碼助手Jules,能夠與用戶的GitHub工作流程集成,處理Bug修復和其他任務。官方聲稱在SWE-bench Verified測試中,Jules的通過率達到了51.8%,提高了編碼效率。
5. 游戲Agent與深度研究
谷歌還推出了基于Gemini 2.0的游戲Agent,這些Agent能夠實時指導用戶在游戲中導航。此外,新的深度研究功能能幫助用戶完成研究任務,生成主題報告。
總的來說,Gemini 2.0 Flash的發布為AI領域帶來了新的可能性,尤其是在多模態輸入輸出和智能助手的發展上,展現了谷歌在AI技術方面的持續創新。
聯系作者
文章來源:Founder Park
作者微信:
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。