顛覆邊緣計(jì)算:Omnivision-968M引領(lǐng)最小多模態(tài)模型新時(shí)代!
目前市場上最小的視覺語言模型之一
原標(biāo)題:Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):3871字
2024中國生成式AI大會(huì)(上海站)預(yù)告
智猩猩聯(lián)合主辦的2024中國生成式AI大會(huì)將于12月5日至6日在上海舉辦。此次大會(huì)將設(shè)有主會(huì)場和分會(huì)場,主會(huì)場將舉行大模型峰會(huì)和AI Infra峰會(huì),分會(huì)場將進(jìn)行端側(cè)生成式AI、AI視頻生成和具身智能三場技術(shù)研討會(huì)。大會(huì)吸引了50多位重磅嘉賓參與主題演講、高端對話和圓桌討論,完整議程已正式公布,歡迎大家報(bào)名參加。
Omnivision-968M模型介紹
最近,在HuggingFace上備受關(guān)注的開源多模態(tài)模型Omnivision-968M,由創(chuàng)業(yè)公司Nexa AI推出。該模型具備不到1B參數(shù)量的小巧體積(僅968M參數(shù)量),成為市場上最小的視覺語言模型之一。Nexa AI的愿景是將先進(jìn)的端側(cè)AI模型帶到本地設(shè)備上,降低成本并提升用戶隱私安全。
模型性能與特點(diǎn)
Omnivision-968M在推理速度上表現(xiàn)優(yōu)異,能夠在Apple M4 Pro處理器的MacBook上以不到2秒的速度生成1046×1568像素圖像的語言描述,同時(shí)僅占用988MB的統(tǒng)一內(nèi)存。該模型相較于標(biāo)準(zhǔn)LLaVA架構(gòu)進(jìn)行了兩大改進(jìn):其一,圖像Token從729減少到81,實(shí)現(xiàn)了9倍的Token壓縮;其二,通過使用可信數(shù)據(jù)進(jìn)行DPO訓(xùn)練,降低幻覺現(xiàn)象,提高了結(jié)果的可靠性。
模型結(jié)構(gòu)與訓(xùn)練方法
Omnivision的架構(gòu)由三個(gè)關(guān)鍵組件構(gòu)成:基礎(chǔ)語言模型Qwen2.5-0.5B-Instruct、視覺編碼器SigLIP-400M和投影層MLP。在訓(xùn)練階段,Omnivision首先進(jìn)行預(yù)訓(xùn)練,建立視覺-語言對齊,然后通過圖像問答數(shù)據(jù)集增強(qiáng)模型的上下文理解能力,最后采用直接偏好優(yōu)化(DPO)進(jìn)行微調(diào),確保模型在不改變核心響應(yīng)特征的情況下進(jìn)行必要的改進(jìn)。
實(shí)驗(yàn)與性能評測
性能評測顯示,Omnivision在多個(gè)任務(wù)中表現(xiàn)優(yōu)于之前的視覺語言模型nanoLLAVA,但略遜于Qwen2-VL-2B。Omnivision能夠在生成圖像描述、尋找圖像目標(biāo)、分析食物圖像生成食譜等任務(wù)中展現(xiàn)出其強(qiáng)大的能力。
總之,Omnivision-968M以其高效的性能和小巧的體積,展示了端側(cè)生成式AI模型的未來潛力,為用戶提供了更為安全和高效的AI解決方案。期待在即將舉行的2024中國生成式AI大會(huì)上,聽到更多關(guān)于這一模型的討論與應(yīng)用案例。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。