AIGC動態歡迎閱讀
原標題:谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用
關鍵字:報告,解讀,模型,音頻,開發者
文章來源:量子位
內容字數:4931字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI谷歌最強大模型Gemini 1.5 Pro今天起,“全面”對外開放。
目前完全免費,開發者可以通過API調用的方式使用,普通玩家也可以在谷歌AI Studio中直接體驗。
(Ps. 發布這則消息的谷歌工程師Logan Kilpatrick正是原來OpenAI開發者關系的負責人,剛剛跳槽到谷歌。)
最讓人期待的是,Gemini 1.5 Pro API首次增加了音頻理解功能。
無論是財報電話會、電視節目還是大神演講,不需要我們再提供字幕文檔它就可以直接解讀了。
如下圖所示:
上傳Jeff Dean長約117000+token的演講錄音,Gemini 1.5 Pro在30.8s內就完成了解析。
而由于Gemini 1.5 Pro100萬的上下文窗口這次也直接對外開放,因此它可以處理的最長音頻約為11小時,最長視頻則為1小時,相當夠用。
我們也趕緊實測了一把,結果是真香。
Gemini 1.5 Pro開放API了谷歌官方給這次免費開放的Gemini 1.5 Pro版本定義為“公開預覽版”。
它主要面向開發者,可在谷歌AI Studio中獲得AP
原文鏈接:谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...