別等GPT-4o啦,國(guó)產(chǎn)「開源版」GPT-4o 來(lái)了!支持全模態(tài)、無(wú)障礙交流
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:別等GPT-4o啦,國(guó)產(chǎn)「開源版」GPT-4o 來(lái)了!支持全模態(tài)、無(wú)障礙交流
關(guān)鍵字:騰訊,音頻,模型,數(shù)據(jù),文本
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年騰訊最近的多模態(tài)進(jìn)展有點(diǎn)子“一路高歌”,先是騰訊元寶升級(jí)了一模態(tài)能力,就差把GPT-4o從榜一拉下來(lái)了。
最近,又搞了一個(gè)和GPT-4o對(duì)標(biāo)的交互式多模態(tài)模型——VITA,而且率先開源了。
每次使用Siri時(shí),都得先說(shuō)個(gè)喚醒詞,比如“Hi! Siri”,或者按個(gè)按鈕才能開始說(shuō)話。而且,當(dāng)機(jī)器在回答用戶提問(wèn)的時(shí)候,用戶就不能繼續(xù)提問(wèn)了,因?yàn)樗荒馨错樞蛱幚磔斎搿?br />這次,騰訊提出了VITA,打破了這一限制!
“VITA”看這名字就知道,其能夠同時(shí)處理和分析 Video(視頻)、Image(圖像)、Text(文本) 和 Audio(音頻)。VITA不僅具備強(qiáng)大的多語(yǔ)言、視覺(jué)和音頻理解基礎(chǔ)能力,在各種單模態(tài)和多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)強(qiáng)勁。更重要的是,VITA帶來(lái)了兩個(gè)超棒的改進(jìn):
無(wú)需喚醒的交互:VITA很聰明,能自動(dòng)忽略周圍環(huán)境中的無(wú)關(guān)聲音,如他人的談話。所以你不用再說(shuō)喚醒詞,也不用按按鈕,就能自然而然地與VITA展開對(duì)話。
音頻中斷的交互:當(dāng)VITA正在回答時(shí),如果用戶突然想到另一個(gè)問(wèn)題,只需直接說(shuō)出,VITA便能立即暫停當(dāng)前回答,迅速轉(zhuǎn)向并解答新問(wèn)題。這
原文鏈接:別等GPT-4o啦,國(guó)產(chǎn)「開源版」GPT-4o 來(lái)了!支持全模態(tài)、無(wú)障礙交流
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介: