顛覆邊緣計算:Omnivision-968M引領(lǐng)最小多模態(tài)模型新時代!
目前市場上最小的視覺語言模型之一
原標題:Omnivision-968M:最小多模態(tài)模型,為邊緣設備而生!
文章來源:智猩猩GenAI
內(nèi)容字數(shù):3871字
2024中國生成式AI大會(上海站)預告
智猩猩聯(lián)合主辦的2024中國生成式AI大會將于12月5日至6日在上海舉辦。此次大會將設有主會場和分會場,主會場將舉行大模型峰會和AI Infra峰會,分會場將進行端側(cè)生成式AI、AI視頻生成和具身智能三場技術(shù)研討會。大會吸引了50多位重磅嘉賓參與主題演講、高端對話和圓桌討論,完整議程已正式公布,歡迎大家報名參加。
Omnivision-968M模型介紹
最近,在HuggingFace上備受關(guān)注的開源多模態(tài)模型Omnivision-968M,由創(chuàng)業(yè)公司Nexa AI推出。該模型具備不到1B參數(shù)量的小巧體積(僅968M參數(shù)量),成為市場上最小的視覺語言模型之一。Nexa AI的愿景是將先進的端側(cè)AI模型帶到本地設備上,降低成本并提升用戶隱私安全。
模型性能與特點
Omnivision-968M在推理速度上表現(xiàn)優(yōu)異,能夠在Apple M4 Pro處理器的MacBook上以不到2秒的速度生成1046×1568像素圖像的語言描述,同時僅占用988MB的統(tǒng)一內(nèi)存。該模型相較于標準LLaVA架構(gòu)進行了兩大改進:其一,圖像Token從729減少到81,實現(xiàn)了9倍的Token壓縮;其二,通過使用可信數(shù)據(jù)進行DPO訓練,降低幻覺現(xiàn)象,提高了結(jié)果的可靠性。
模型結(jié)構(gòu)與訓練方法
Omnivision的架構(gòu)由三個關(guān)鍵組件構(gòu)成:基礎語言模型Qwen2.5-0.5B-Instruct、視覺編碼器SigLIP-400M和投影層MLP。在訓練階段,Omnivision首先進行預訓練,建立視覺-語言對齊,然后通過圖像問答數(shù)據(jù)集增強模型的上下文理解能力,最后采用直接偏好優(yōu)化(DPO)進行微調(diào),確保模型在不改變核心響應特征的情況下進行必要的改進。
實驗與性能評測
性能評測顯示,Omnivision在多個任務中表現(xiàn)優(yōu)于之前的視覺語言模型nanoLLAVA,但略遜于Qwen2-VL-2B。Omnivision能夠在生成圖像描述、尋找圖像目標、分析食物圖像生成食譜等任務中展現(xiàn)出其強大的能力。
總之,Omnivision-968M以其高效的性能和小巧的體積,展示了端側(cè)生成式AI模型的未來潛力,為用戶提供了更為安全和高效的AI解決方案。期待在即將舉行的2024中國生成式AI大會上,聽到更多關(guān)于這一模型的討論與應用案例。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。