近日,面壁智能發布并開源了全新一代小鋼炮 MiniCPM-o 2.6
原標題:端側 GPT-4o來了! 面壁發布全新端側模型,全模態、端到端,支持實時流式音視頻通話!
文章來源:AI前線
內容字數:5600字
面壁智能開源MiniCPM-o 2.6:全模態實時流式AI模型
本文總結了面壁智能最新開源的MiniCPM-o 2.6模型的關鍵特性及應用前景。
MiniCPM-o 2.6 的核心能力
MiniCPM-o 2.6是一個參數規模僅8B的端到端全模態模型,在視覺、語音和多模態方面性能堪比GPT-4o-202405。它支持雙語實時語音對話,并具備聲音可配置、情緒/語速/風格控制、端到端語音克隆和角色扮演等功能。此外,該模型還提升了視覺能力,包括強大的OCR能力、多語言支持和視頻理解能力。其優越的token密度使其能夠在iPad等端側設備上進行多模態實時流處理,實現了實時流式全模態開源模型的SOTA。
超越現有模型的性能
MiniCPM-o 2.6在多個基準測試中表現出色。在語音方面,其理解和生成能力均達到開源雙SOTA,超越了Qwen2-Audio-7B-Instruct和GLM-4-Voice 9B。在視覺方面,它也達到了端側全模態模型最佳水平,性能與GPT-4o和Claude-3.5-Sonnet相當。尤其是在StreamingBench榜單(實時流式視頻理解)上,其性能同樣驚艷,與GPT-4o和Claude-3.5-Sonnet不相上下。
實時流式與端到端優勢
不同于市場上僅處理靜態圖像的“照片大模型”,MiniCPM-o 2.6能夠持續對實時視頻和音頻流進行建模,更貼近人類的自然視覺交互。它可以感知用戶提問之前的畫面和聲音,并實現實時打斷和流暢對話,具備更強的上下文理解能力和抗噪能力。 它還能識別環境聲音,例如翻書、倒水、敲門聲等細節,這是GPT-4o所不具備的。
高級情感語音對話
MiniCPM-o 2.6 的高級情感語音對話功能,具備真人質感的語音生成能力、低延遲、實時打斷、情感與語氣表達、可控語音生成(情感、音色、風格控制)以及語音克隆和基于語言描述的聲音創建等特性,帶來更自然流暢的交互體驗。
端側大模型的潛力
面壁智能押注端側大模型,看重其隱私性好、可靠性高、響應速度快以及對網絡環境要求低的優勢。MiniCPM-o 2.6的多模態特性使其在智能座艙、教育和商務等領域具有巨大的應用潛力,例如實現沉浸式學習、實時翻譯等功能。
大模型密度定律
面壁團隊提出“大模型密度定律”,認為模型能力密度隨時間呈指數級增長,模型參數規模和推理/訓練開銷將持續下降。這預示著未來更強大的模型能夠運行在各種終端設備上。
總而言之,MiniCPM-o 2.6 作為一款全模態實時流式AI模型,憑借其強大的性能和端側部署能力,展現了在多個領域的巨大應用潛力,為AI技術的發展帶來了新的突破。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。