全球首次!國(guó)產(chǎn)AI開源端側(cè)GPT-4o海外爆火,8B參數(shù)iPad就能跑
實(shí)時(shí)流式視頻通話+高級(jí)語(yǔ)音理解
原標(biāo)題:全球首次!國(guó)產(chǎn)AI開源端側(cè)GPT-4o海外爆火,8B參數(shù)iPad就能跑
文章來源:量子位
內(nèi)容字?jǐn)?shù):7417字
國(guó)產(chǎn)AI“MiniCPM-o 2.6”驚艷
國(guó)產(chǎn)AI模型MiniCPM-o 2.6憑借其強(qiáng)大的多模態(tài)能力和僅8B的體量,在海外社交媒體上引發(fā)熱議。這款模型可以在iPad等端側(cè)設(shè)備上運(yùn)行,其性能甚至可以與GPT-4o相媲美,甚至在某些方面超越后者。文章詳細(xì)介紹了MiniCPM-o 2.6的各項(xiàng)能力以及背后的技術(shù)原理。
1. MiniCPM-o 2.6 的多模態(tài)能力
MiniCPM-o 2.6展現(xiàn)出強(qiáng)大的“看、聽、說”能力。它能夠精準(zhǔn)識(shí)別各種聲音,例如翻書聲、咳嗽聲等;能夠理解視頻內(nèi)容,例如識(shí)別游戲《黑神話:悟空》;能夠理解圖片信息,例如指導(dǎo)用戶調(diào)整自行車座椅,并具備強(qiáng)大的OCR能力,可以處理高像素圖像;還能進(jìn)行多語(yǔ)言表達(dá),例如用四川話講解火鍋烹飪方法。
2. 技術(shù)架構(gòu)解析:高效的端到端全模態(tài)架構(gòu)
MiniCPM-o 2.6的出色性能源于其端到端全模態(tài)架構(gòu)。該架構(gòu)將文本、圖像、音頻等不同類型數(shù)據(jù)的編碼和解碼模塊連接起來進(jìn)行訓(xùn)練,使模型能夠綜合考慮不同模態(tài)之間的關(guān)聯(lián)和交互。為了適應(yīng)流式輸入輸出,面壁智能團(tuán)隊(duì)對(duì)離線編解碼器模塊進(jìn)行了改造,并設(shè)計(jì)了時(shí)分復(fù)用的全模態(tài)流式信息處理機(jī)制(OTDM),實(shí)現(xiàn)了高效的實(shí)時(shí)交互。
3. 面壁智能的“以小博大”策略
面壁智能專注于面向邊端算力場(chǎng)景進(jìn)行極致優(yōu)化,致力于開發(fā)在手機(jī)、iPad等端側(cè)設(shè)備上高效運(yùn)行的大模型。MiniCPM-o 2.6是其“以小博大”策略的最新成果,延續(xù)了之前MiniCPM系列模型“小體量、高性能”的特點(diǎn)。其前身MiniCPM系列模型在多個(gè)測(cè)評(píng)中超越了其他大型模型,并以低廉的成本提供了強(qiáng)大的性能。
4. 開源與應(yīng)用前景
MiniCPM-o 2.6已在GitHub和Hugging Face開源,并提供在線demo。其端側(cè)運(yùn)行的能力使其能夠在弱網(wǎng)或斷網(wǎng)環(huán)境下正常工作,擴(kuò)展了應(yīng)用場(chǎng)景,特別適合部署在智能眼鏡等設(shè)備上,為視障人士提供便利。
5. 國(guó)產(chǎn)開源大模型的崛起
文章最后提到,國(guó)產(chǎn)開源大模型發(fā)展迅速,DeepSeek、阿里Qwen和面壁智能等廠商表現(xiàn)亮眼,展現(xiàn)了中國(guó)在AI領(lǐng)域的競(jìng)爭(zhēng)力。
總而言之,MiniCPM-o 2.6的出現(xiàn)標(biāo)志著國(guó)產(chǎn)AI在多模態(tài)領(lǐng)域取得了顯著進(jìn)展,其開源特性也為AI社區(qū)的發(fā)展貢獻(xiàn)了力量。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破