OmniAudio-2.6B

OmniAudio-2.6B – Nexa AI推出的端側多模態音頻語言模型

OmniAudio-2.6B是Nexa AI推出的一款創新音頻語言模型，專為邊緣部署而設計，旨在實現快速且高效的音頻文本處理。該模型擁有2.6億參數，融合了Gemma-2-2b、Whisper Turbo以及定制的投影模塊，優化了自動語音識別（ASR）與語言模型的集成，顯著降低了延遲和資源消耗。在2024款Mac Mini M4 Pro上，OmniAudio-2.6B的解碼速度比Qwen2-Audio-7B-Instruct快5.5到10.3倍，適用范圍廣泛，包括語音問答、對話及創意內容生成等，基于Nexa SDK在本地設備上運行，為用戶提供強大的邊緣AI解決方案。

OmniAudio-2.6B是什么

OmniAudio-2.6B是Nexa AI推出的一款音頻語言模型，專為邊緣設備部署而設計，提供快速且高效的音頻文本處理能力。該模型結合了Gemma-2-2b、Whisper Turbo和定制的投影模塊，優化了自動語音識別和語言模型的融合，顯著減少了延遲和資源消耗。OmniAudio-2.6B在2024款Mac Mini M4 Pro上展示了比Qwen2-Audio-7B-Instruct快5.5到10.3倍的解碼速度，適用于眾多應用場景，例如語音問答、對話生成和創意內容創造，基于Nexa SDK在本地設備上運行，提供了強大的邊緣AI解決方案。

OmniAudio-2.6B

OmniAudio-2.6B的主要功能

語音識別與轉錄：將語音輸入轉化為文本，適用于會議記錄、語音筆記等多種場景。
語音問答：用戶可以通過語音提問，模型能夠理解并提供文本答案。
語音對話：模型能夠參與語音對話，理解語音輸入并生成相應的文本回復。
創意內容生成：用戶可以請求模型基于語音輸入生成創意內容，如詩歌和故事等。
錄音摘要：模型能夠對長時間的語音記錄進行理解和總結，提取關鍵信息的摘要。

OmniAudio-2.6B的技術原理

集成架構：整合了Gemma-2-2b、Whisper Turbo和自定義投影模塊，減少了傳統ASR和LLM模型串聯帶來的延遲和資源消耗。
稀疏性利用：通過語言模型嵌入空間的稀疏性，投影模塊將Whisper的音頻tokens映射到與Gemma文本嵌入一致的序列，實現音頻和文本的有效融合。
三階段訓練流程：
- 預訓練：使用MLS English 10k轉錄數據集，引入特殊token以區分轉錄和補全任務。
- 監督式微調（SFT）：基于轉錄數據集創建合成數據集，用于指令調優，使模型能夠理解并處理對話音頻輸入。
- 直接偏好優化（DPO）：通過GPT-4o API評估模型輸出，識別錯誤響應并進行優化，以提高模型的準確性。
高效推理引擎：Nexa SDK是基于GGML的C++推理引擎，專為在邊緣設備上部署音頻語言模型而設計，能夠實現高效的音頻語言模型推理。
量化和優化：模型支持FP16和Q4_K_M量化版本，減少內存和存儲需求，適應資源受限的邊緣設備。