別等GPT-4o啦,國產(chǎn)「開源版」GPT-4o 來了!支持全模態(tài)、無障礙交流

AIGC動態(tài)歡迎閱讀
原標(biāo)題:別等GPT-4o啦,國產(chǎn)「開源版」GPT-4o 來了!支持全模態(tài)、無障礙交流
關(guān)鍵字:騰訊,音頻,模型,數(shù)據(jù),文本
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年騰訊最近的多模態(tài)進(jìn)展有點子“一路高歌”,先是騰訊元寶升級了一模態(tài)能力,就差把GPT-4o從榜一拉下來了。
最近,又搞了一個和GPT-4o對標(biāo)的交互式多模態(tài)模型——VITA,而且率先開源了。
每次使用Siri時,都得先說個喚醒詞,比如“Hi! Siri”,或者按個按鈕才能開始說話。而且,當(dāng)機(jī)器在回答用戶提問的時候,用戶就不能繼續(xù)提問了,因為它只能按順序處理輸入。
這次,騰訊提出了VITA,打破了這一限制!
“VITA”看這名字就知道,其能夠同時處理和分析 Video(視頻)、Image(圖像)、Text(文本) 和 Audio(音頻)。VITA不僅具備強(qiáng)大的多語言、視覺和音頻理解基礎(chǔ)能力,在各種單模態(tài)和多模態(tài)基準(zhǔn)測試中表現(xiàn)強(qiáng)勁。更重要的是,VITA帶來了兩個超棒的改進(jìn):
無需喚醒的交互:VITA很聰明,能自動忽略周圍環(huán)境中的無關(guān)聲音,如他人的談話。所以你不用再說喚醒詞,也不用按按鈕,就能自然而然地與VITA展開對話。
音頻中斷的交互:當(dāng)VITA正在回答時,如果用戶突然想到另一個問題,只需直接說出,VITA便能立即暫停當(dāng)前回答,迅速轉(zhuǎn)向并解答新問題。這
原文鏈接:別等GPT-4o啦,國產(chǎn)「開源版」GPT-4o 來了!支持全模態(tài)、無障礙交流
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號