端側GPT-4o水平模型,成色如何?
原標題:僅8個月就把GPT-4o帶到了端側,面壁智能拿到了什么秘籍?|甲子光年
文章來源:甲子光年
內容字數:9068字
面壁智能MiniCPM-o 2.6:端側GPT-4o級全模態模型深度解析
本文深度解析面壁智能最新發布的端側全模態模型MiniCPM-o 2.6,探討其技術優勢、應用場景及未來發展方向。
1. MiniCPM-o 2.6:端側GPT-4o水平的成色如何?
MiniCPM-o 2.6參數量為8B,號稱達到GPT-4o水平。雖然GPT-4o參數量未公開,但有消息稱其mini版本參數量約為8B,與MiniCPM-o 2.6參數量一致。然而,MiniCPM-o 2.6對標的是參數量遠高于其的GPT-4o。
在實際測試中,MiniCPM-o 2.6展現出卓越的全模態實時流式理解能力,尤其在視頻理解方面,它能夠持續感知用戶提問前后的畫面和聲音,實現更接近人眼的自然交互,在游戲測試中表現出色。 在音頻理解方面,MiniCPM-o 2.6不僅能理解語音,還能精準識別背景音,并生成具備豐富情感和語氣的真人質感音頻,具備音色克隆能力。此外,其在視覺理解方面也達到端側全模態模型最佳水平。
在多個權威榜單上,MiniCPM-o 2.6取得了SOTA成績,例如在StreamingBench上比肩GPT-4o和Claude-3.5-Sonnet;在語音理解和生成方面均超越了其他開源模型。
2. 面壁智能的“秘籍”:端到端全模態架構和全模態流式機制
MiniCPM-o 2.6的成功源于其獨特的“端到端全模態架構”和“全模態流式機制”。傳統的語音和視頻模型多采用級聯方式,信息容易丟失。而MiniCPM-o 2.6通過端到端方式訓練和推理,避免信息損耗,提升了音視頻理解和生成效果。其“全模態流式機制”則實現了低延遲的模態并發,提升用戶體驗。
此外,MiniCPM-o 2.6還采用了超高多模態像素密度技術,高效壓縮視頻幀,降低成本,并通過RAG方式管理輸入的Token,從而能夠處理較長的視頻。
3. 應用場景及未來展望
MiniCPM-o 2.6瞄準了AI硬件市場,其應用場景涵蓋AI手機、AI PC、智能座艙、智能家居和具身機器人等領域。面壁智能已與多家企業合作,加速模型落地。李大海認為,“端側模型+AI硬件”是未來發展方向,未來的每一個硬件都應該是智能化的。
面壁智能專注于具身化屬性較強的設備,因為智能體大部分被動信息都是通過視覺和聽覺完成的,MiniCPM-o 2.6的全模態特性能夠讓設備更好地感知環境并進行交互,實現更高級的智能。
總而言之,MiniCPM-o 2.6作為一款端側GPT-4o級全模態模型,憑借其強大的性能和獨特的技術優勢,有望在AI硬件領域掀起新的浪潮,推動AI應用的進一步發展。
聯系作者
文章來源:甲子光年
作者微信:
作者簡介:甲子光年是一家科技智庫,包含智庫、社群、企業服務版塊,立足中國科技創新前沿陣地,動態跟蹤頭部科技企業發展和傳統產業技術升級案例,推動人工智能、大數據、物聯網、云計算、新能源、新材料、信息安全、大健康等科技創新在產業中的應用與落地。