NEXUS-O – 多模態(tài)AI模型,實現(xiàn)對語言、音頻和視覺全方位感知與交互
NEXUS-O 是由 HiThink 研究院、英國帝國理工學(xué)院、浙江大學(xué)、復(fù)旦大學(xué)、微軟和 Meta AI 等多個機構(gòu)共同開發(fā)的先進多模態(tài)人工智能模型。它能夠全面感知和互動語言、音頻和視覺信息,支持音頻、圖像、視頻與文本的任意組合輸入,并以音頻或文本的形式輸出結(jié)果。NEXUS-O 基于視覺語言模型進行預(yù)訓(xùn)練,并通過高質(zhì)量合成音頻數(shù)據(jù)來增強三模態(tài)之間的對齊能力。此外,NEXUS-O 引入了新的音頻測試平臺 Nexus-O-audio,覆蓋了多個真實應(yīng)用場景,如會議和直播,以評估模型在實際應(yīng)用中的魯棒性。在視覺理解、音頻問答、語音識別和翻譯等任務(wù)上,NEXUS-O 展現(xiàn)了卓越的性能,證明了其高效性和有效性。
NEXUS-O是什么
NEXUS-O 是一個多模態(tài)AI模型,由 HiThink 研究院、英國帝國理工學(xué)院、浙江大學(xué)、復(fù)旦大學(xué)、微軟和 Meta AI 等機構(gòu)共同推出。它能夠在語言、音頻和視覺信息之間進行全面的感知與交互,支持音頻、圖像、視頻和文本的任意組合輸入,并以音頻或文本形式進行輸出。NEXUS-O 的預(yù)訓(xùn)練基于視覺語言模型,借助高質(zhì)量的合成音頻數(shù)據(jù)來提升三模態(tài)的對齊能力,同時引入了新的音頻測試平臺 Nexus-O-audio,涵蓋多種真實場景,如會議和直播,以評估模型在實際應(yīng)用中的表現(xiàn)。NEXUS-O 在視覺理解、音頻問答、語音識別和翻譯等任務(wù)中展現(xiàn)了出色的能力,基于三模態(tài)對齊分析顯示其高效性與有效性。

NEXUS-O的主要功能
- 語音處理能力:支持自動語音識別(ASR)、語音到文本翻譯(S2TT)、語音合成和語音指令交互,適用于多種語音應(yīng)用場景。
- 視覺理解與交互:處理圖像和視頻輸入,完成視覺問答(VQA)、圖像描述生成和視頻分析等任務(wù),展現(xiàn)強大的視覺理解能力。
- 語言交互與推理:理解自然語言指令,進行對話交互、文本生成和多模態(tài)推理,支持復(fù)雜的語言交互場景。
- 跨模態(tài)對齊與理解:基于多模態(tài)對齊技術(shù),實現(xiàn)音頻、視覺和語言模態(tài)之間的協(xié)同理解,提升模型在復(fù)雜場景下的綜合性能。
NEXUS-O的技術(shù)原理
- 多模態(tài)架構(gòu):
- 視覺編碼器:采用改進的 Vision Transformer(ViT)架構(gòu),支持高分辨率圖像輸入,利用窗口注意力機制提升計算效率。
- 音頻編碼器與解碼器:音頻編碼器基于預(yù)訓(xùn)練的 Whisper-large-v3 模型,將語音特征映射到語義空間;音頻解碼器利用自回歸生成離散語音碼,將預(yù)訓(xùn)練的生成器合成最終的語音波形。
- 語言模型:以 Qwen2.5-VL-7B 為基礎(chǔ),包含 28 層因果 Transformer,負(fù)責(zé)處理語言模態(tài)的任務(wù)。
- 多模態(tài)對齊與預(yù)訓(xùn)練:在預(yù)訓(xùn)練階段,將音頻、視覺和語言模態(tài)的特征對齊到統(tǒng)一的語義空間,提升模型理解和生成跨模態(tài)信息的能力。采用分階段預(yù)訓(xùn)練方法,包括音頻對齊、音頻指令跟隨(SFT)和音頻輸出調(diào)優(yōu),逐步提升多模態(tài)交互能力。
- 數(shù)據(jù)合成與增強:通過文本到語音(TTS)技術(shù),將文本數(shù)據(jù)轉(zhuǎn)化為自然語音,增強數(shù)據(jù)多樣性。對合成數(shù)據(jù)進行長度過濾、非文本元素過濾和模式匹配過濾,以確保數(shù)據(jù)質(zhì)量。
- 多模態(tài)任務(wù)的聯(lián)合訓(xùn)練:在預(yù)訓(xùn)練階段,支持多種多模態(tài)任務(wù),如自動語音識別、語音到文本翻譯、語音指令交互和視覺問答,聯(lián)合訓(xùn)練提升模型的泛化能力。
- 表示空間對齊分析:利用核對齊(kernel alignment)等方法,評估不同模態(tài)在模型內(nèi)部的表示空間對齊程度,優(yōu)化多模態(tài)特征融合效果。
NEXUS-O的項目地址
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.01879
NEXUS-O的應(yīng)用場景
- 智能語音交互:作為語音助手的核心,支持多語言對話、語音控制設(shè)備和實時翻譯,廣泛應(yīng)用于智能家居、車載系統(tǒng)和智能客服等領(lǐng)域。
- 視頻會議與協(xié)作:提供實時語音翻譯、智能會議記錄和虛擬助手功能,提升遠程辦公和多語言會議的效率。
- 教育與內(nèi)容創(chuàng)作:輔助語言學(xué)習(xí)、智能輔導(dǎo)和教育游戲開發(fā),支持視頻字幕生成、音頻內(nèi)容創(chuàng)作和多模態(tài)內(nèi)容推薦,豐富學(xué)習(xí)與創(chuàng)作體驗。
- 智能駕駛與安防:通過語音控制車輛功能、環(huán)境感知輔助以及智能家居控制和安防監(jiān)控,提升駕駛安全性和生活便利性。
- 公共服務(wù)與醫(yī)療健康:支持智能導(dǎo)覽、應(yīng)急響應(yīng)輔助、語音診斷輔助和康復(fù)訓(xùn)練指導(dǎo),助力公共服務(wù)智能化和醫(yī)療健康領(lǐng)域的個性化服務(wù)。

粵公網(wǎng)安備 44011502001135號