僅8個(gè)月就把GPT-4o帶到了端側(cè),面壁智能拿到了什么秘籍?|甲子光年
端側(cè)GPT-4o水平模型,成色如何?

原標(biāo)題:僅8個(gè)月就把GPT-4o帶到了端側(cè),面壁智能拿到了什么秘籍?|甲子光年
文章來(lái)源:甲子光年
內(nèi)容字?jǐn)?shù):9068字
面壁智能MiniCPM-o 2.6:端側(cè)GPT-4o級(jí)全模態(tài)模型深度解析
本文深度解析面壁智能最新發(fā)布的端側(cè)全模態(tài)模型MiniCPM-o 2.6,探討其技術(shù)優(yōu)勢(shì)、應(yīng)用場(chǎng)景及未來(lái)發(fā)展方向。
1. MiniCPM-o 2.6:端側(cè)GPT-4o水平的成色如何?
MiniCPM-o 2.6參數(shù)量為8B,號(hào)稱(chēng)達(dá)到GPT-4o水平。雖然GPT-4o參數(shù)量未公開(kāi),但有消息稱(chēng)其mini版本參數(shù)量約為8B,與MiniCPM-o 2.6參數(shù)量一致。然而,MiniCPM-o 2.6對(duì)標(biāo)的是參數(shù)量遠(yuǎn)高于其的GPT-4o。
在實(shí)際測(cè)試中,MiniCPM-o 2.6展現(xiàn)出卓越的全模態(tài)實(shí)時(shí)流式理解能力,尤其在視頻理解方面,它能夠持續(xù)感知用戶(hù)提問(wèn)前后的畫(huà)面和聲音,實(shí)現(xiàn)更接近人眼的自然交互,在游戲測(cè)試中表現(xiàn)出色。 在音頻理解方面,MiniCPM-o 2.6不僅能理解語(yǔ)音,還能精準(zhǔn)識(shí)別背景音,并生成具備豐富情感和語(yǔ)氣的真人質(zhì)感音頻,具備音色克隆能力。此外,其在視覺(jué)理解方面也達(dá)到端側(cè)全模態(tài)模型最佳水平。
在多個(gè)權(quán)威榜單上,MiniCPM-o 2.6取得了SOTA成績(jī),例如在StreamingBench上比肩GPT-4o和Claude-3.5-Sonnet;在語(yǔ)音理解和生成方面均超越了其他開(kāi)源模型。
2. 面壁智能的“秘籍”:端到端全模態(tài)架構(gòu)和全模態(tài)流式機(jī)制
MiniCPM-o 2.6的成功源于其獨(dú)特的“端到端全模態(tài)架構(gòu)”和“全模態(tài)流式機(jī)制”。傳統(tǒng)的語(yǔ)音和視頻模型多采用級(jí)聯(lián)方式,信息容易丟失。而MiniCPM-o 2.6通過(guò)端到端方式訓(xùn)練和推理,避免信息損耗,提升了音視頻理解和生成效果。其“全模態(tài)流式機(jī)制”則實(shí)現(xiàn)了低延遲的模態(tài)并發(fā),提升用戶(hù)體驗(yàn)。
此外,MiniCPM-o 2.6還采用了超高多模態(tài)像素密度技術(shù),高效壓縮視頻幀,降低成本,并通過(guò)RAG方式管理輸入的Token,從而能夠處理較長(zhǎng)的視頻。
3. 應(yīng)用場(chǎng)景及未來(lái)展望
MiniCPM-o 2.6瞄準(zhǔn)了AI硬件市場(chǎng),其應(yīng)用場(chǎng)景涵蓋AI手機(jī)、AI PC、智能座艙、智能家居和具身機(jī)器人等領(lǐng)域。面壁智能已與多家企業(yè)合作,加速模型落地。李大海認(rèn)為,“端側(cè)模型+AI硬件”是未來(lái)發(fā)展方向,未來(lái)的每一個(gè)硬件都應(yīng)該是智能化的。
面壁智能專(zhuān)注于具身化屬性較強(qiáng)的設(shè)備,因?yàn)橹悄荏w大部分被動(dòng)信息都是通過(guò)視覺(jué)和聽(tīng)覺(jué)完成的,MiniCPM-o 2.6的全模態(tài)特性能夠讓設(shè)備更好地感知環(huán)境并進(jìn)行交互,實(shí)現(xiàn)更高級(jí)的智能。
總而言之,MiniCPM-o 2.6作為一款端側(cè)GPT-4o級(jí)全模態(tài)模型,憑借其強(qiáng)大的性能和獨(dú)特的技術(shù)優(yōu)勢(shì),有望在AI硬件領(lǐng)域掀起新的浪潮,推動(dòng)AI應(yīng)用的進(jìn)一步發(fā)展。
聯(lián)系作者
文章來(lái)源:甲子光年
作者微信:
作者簡(jiǎn)介:甲子光年是一家科技智庫(kù),包含智庫(kù)、社群、企業(yè)服務(wù)版塊,立足中國(guó)科技創(chuàng)新前沿陣地,動(dòng)態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級(jí)案例,推動(dòng)人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算、新能源、新材料、信息安全、大健康等科技創(chuàng)新在產(chǎn)業(yè)中的應(yīng)用與落地。

粵公網(wǎng)安備 44011502001135號(hào)