谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用
AIGC動態(tài)歡迎閱讀
原標(biāo)題:谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用
關(guān)鍵字:報告,解讀,模型,音頻,開發(fā)者
文章來源:量子位
內(nèi)容字?jǐn)?shù):4931字
內(nèi)容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號 QbitAI谷歌最強大模型Gemini 1.5 Pro今天起,“全面”對外開放。
目前完全免費,開發(fā)者可以通過API調(diào)用的方式使用,普通玩家也可以在谷歌AI Studio中直接體驗。
(Ps. 發(fā)布這則消息的谷歌工程師Logan Kilpatrick正是原來OpenAI開發(fā)者關(guān)系的負(fù)責(zé)人,剛剛跳槽到谷歌。)
最讓人期待的是,Gemini 1.5 Pro API首次增加了音頻理解功能。
無論是財報電話會、電視節(jié)目還是大神演講,不需要我們再提供字幕文檔它就可以直接解讀了。
如下圖所示:
上傳Jeff Dean長約117000+token的演講錄音,Gemini 1.5 Pro在30.8s內(nèi)就完成了解析。
而由于Gemini 1.5 Pro100萬的上下文窗口這次也直接對外開放,因此它可以處理的最長音頻約為11小時,最長視頻則為1小時,相當(dāng)夠用。
我們也趕緊實測了一把,結(jié)果是真香。
Gemini 1.5 Pro開放API了谷歌官方給這次免費開放的Gemini 1.5 Pro版本定義為“公開預(yù)覽版”。
它主要面向開發(fā)者,可在谷歌AI Studio中獲得AP
原文鏈接:谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破