OmniAudio-2.6B – Nexa AI推出的端側(cè)多模態(tài)音頻語言模型
OmniAudio-2.6B是Nexa AI推出的一款創(chuàng)新音頻語言模型,專為邊緣部署而設(shè)計(jì),旨在實(shí)現(xiàn)快速且高效的音頻文本處理。該模型擁有2.6億參數(shù),融合了Gemma-2-2b、Whisper Turbo以及定制的投影模塊,優(yōu)化了自動(dòng)語音識(shí)別(ASR)與語言模型的集成,顯著降低了延遲和資源消耗。在2024款Mac Mini M4 Pro上,OmniAudio-2.6B的解碼速度比Qwen2-Audio-7B-Instruct快5.5到10.3倍,適用范圍廣泛,包括語音問答、對(duì)話及創(chuàng)意內(nèi)容生成等,基于Nexa SDK在本地設(shè)備上運(yùn)行,為用戶提供強(qiáng)大的邊緣AI解決方案。
OmniAudio-2.6B是什么
OmniAudio-2.6B是Nexa AI推出的一款音頻語言模型,專為邊緣設(shè)備部署而設(shè)計(jì),提供快速且高效的音頻文本處理能力。該模型結(jié)合了Gemma-2-2b、Whisper Turbo和定制的投影模塊,優(yōu)化了自動(dòng)語音識(shí)別和語言模型的融合,顯著減少了延遲和資源消耗。OmniAudio-2.6B在2024款Mac Mini M4 Pro上展示了比Qwen2-Audio-7B-Instruct快5.5到10.3倍的解碼速度,適用于眾多應(yīng)用場(chǎng)景,例如語音問答、對(duì)話生成和創(chuàng)意內(nèi)容創(chuàng)造,基于Nexa SDK在本地設(shè)備上運(yùn)行,提供了強(qiáng)大的邊緣AI解決方案。
OmniAudio-2.6B的主要功能
- 語音識(shí)別與轉(zhuǎn)錄:將語音輸入轉(zhuǎn)化為文本,適用于會(huì)議記錄、語音筆記等多種場(chǎng)景。
- 語音問答:用戶可以通過語音提問,模型能夠理解并提供文本答案。
- 語音對(duì)話:模型能夠參與語音對(duì)話,理解語音輸入并生成相應(yīng)的文本回復(fù)。
- 創(chuàng)意內(nèi)容生成:用戶可以請(qǐng)求模型基于語音輸入生成創(chuàng)意內(nèi)容,如詩歌和故事等。
- 錄音摘要:模型能夠?qū)﹂L(zhǎng)時(shí)間的語音記錄進(jìn)行理解和總結(jié),提取關(guān)鍵信息的摘要。
OmniAudio-2.6B的技術(shù)原理
- 集成架構(gòu):整合了Gemma-2-2b、Whisper Turbo和自定義投影模塊,減少了傳統(tǒng)ASR和LLM模型串聯(lián)帶來的延遲和資源消耗。
- 稀疏性利用:通過語言模型嵌入空間的稀疏性,投影模塊將Whisper的音頻tokens映射到與Gemma文本嵌入一致的序列,實(shí)現(xiàn)音頻和文本的有效融合。
- 三階段訓(xùn)練流程:
- 預(yù)訓(xùn)練:使用MLS English 10k轉(zhuǎn)錄數(shù)據(jù)集,引入特殊token以區(qū)分轉(zhuǎn)錄和補(bǔ)全任務(wù)。
- 監(jiān)督式微調(diào)(SFT):基于轉(zhuǎn)錄數(shù)據(jù)集創(chuàng)建合成數(shù)據(jù)集,用于指令調(diào)優(yōu),使模型能夠理解并處理對(duì)話音頻輸入。
- 直接偏好優(yōu)化(DPO):通過GPT-4o API評(píng)估模型輸出,識(shí)別錯(cuò)誤響應(yīng)并進(jìn)行優(yōu)化,以提高模型的準(zhǔn)確性。
- 高效推理引擎:Nexa SDK是基于GGML的C++推理引擎,專為在邊緣設(shè)備上部署音頻語言模型而設(shè)計(jì),能夠?qū)崿F(xiàn)高效的音頻語言模型推理。
- 量化和優(yōu)化:模型支持FP16和Q4_K_M量化版本,減少內(nèi)存和存儲(chǔ)需求,適應(yīng)資源受限的邊緣設(shè)備。
OmniAudio-2.6B的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):nexa.ai/blogs/omniaudio-2.6b
- HuggingFace模型庫:https://huggingface.co/NexaAIDev/OmniAudio-2.6B
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/NexaAIDev/omni-audio-demo
OmniAudio-2.6B的應(yīng)用場(chǎng)景
- 智能助手和虛擬助手:在智能手機(jī)和智能家居設(shè)備中,作為語音交互的核心,提供快速的語音識(shí)別和自然語言理解功能。
- 車載系統(tǒng):集成于汽車中,提供語音控制、導(dǎo)航和娛樂系統(tǒng)操作等功能,提升駕駛安全性和便利性。
- 會(huì)議記錄和轉(zhuǎn)錄:在商務(wù)會(huì)議中自動(dòng)記錄和轉(zhuǎn)寫會(huì)議內(nèi)容,生成會(huì)議摘要,提高工作效率。
- 教育和學(xué)習(xí):輔助語言學(xué)習(xí),提供語音識(shí)別和反饋,幫助學(xué)習(xí)者提升發(fā)音和語言能力。
- 醫(yī)療健康:在醫(yī)療環(huán)境中,通過語音命令控制醫(yī)療設(shè)備,或?yàn)榛颊咛峁┱Z音交互服務(wù)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...