別等GPT-4o啦，國產(chǎn)「開源版」GPT-4o 來了！支持全模態(tài)、無障礙交流

AIGC動態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標(biāo)題：別等GPT-4o啦，國產(chǎn)「開源版」GPT-4o 來了！支持全模態(tài)、無障礙交流
關(guān)鍵字：騰訊,音頻,模型,數(shù)據(jù),文本
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 謝年年騰訊最近的多模態(tài)進(jìn)展有點子“一路高歌”，先是騰訊元寶升級了一模態(tài)能力，就差把GPT-4o從榜一拉下來了。
最近，又搞了一個和GPT-4o對標(biāo)的交互式多模態(tài)模型——VITA，而且率先開源了。
每次使用Siri時，都得先說個喚醒詞，比如“Hi! Siri”，或者按個按鈕才能開始說話。而且，當(dāng)機(jī)器在回答用戶提問的時候，用戶就不能繼續(xù)提問了，因為它只能按順序處理輸入。
這次，騰訊提出了VITA，打破了這一限制！
“VITA”看這名字就知道，其能夠同時處理和分析 Video（視頻）、Image（圖像）、Text（文本）和 Audio（音頻）。VITA不僅具備強(qiáng)大的多語言、視覺和音頻理解基礎(chǔ)能力，在各種單模態(tài)和多模態(tài)基準(zhǔn)測試中表現(xiàn)強(qiáng)勁。更重要的是，VITA帶來了兩個超棒的改進(jìn)：
無需喚醒的交互：VITA很聰明，能自動忽略周圍環(huán)境中的無關(guān)聲音，如他人的談話。所以你不用再說喚醒詞，也不用按按鈕，就能自然而然地與VITA展開對話。
音頻中斷的交互：當(dāng)VITA正在回答時，如果用戶突然想到另一個問題，只需直接說出，VITA便能立即暫停當(dāng)前回答，迅速轉(zhuǎn)向并解答新問題。這

原文鏈接：別等GPT-4o啦，國產(chǎn)「開源版」GPT-4o 來了！支持全模態(tài)、無障礙交流