顛覆邊緣計算：Omnivision-968M引領最小多模態模型新時代！

目前市場上最小的視覺語言模型之一

原標題：Omnivision-968M：最小多模態模型，為邊緣設備而生！
文章來源：智猩猩GenAI
內容字數：3871字

2024中國生成式AI大會（上海站）預告

智猩猩聯合主辦的2024中國生成式AI大會將于12月5日至6日在上海舉辦。此次大會將設有主會場和分會場，主會場將舉行大模型峰會和AI Infra峰會，分會場將進行端側生成式AI、AI視頻生成和具身智能三場技術研討會。大會吸引了50多位重磅嘉賓參與主題演講、高端對話和圓桌討論，完整議程已正式公布，歡迎大家報名參加。

Omnivision-968M模型介紹

最近，在HuggingFace上備受關注的開源多模態模型Omnivision-968M，由創業公司Nexa AI推出。該模型具備不到1B參數量的小巧體積（僅968M參數量），成為市場上最小的視覺語言模型之一。Nexa AI的愿景是將先進的端側AI模型帶到本地設備上，降低成本并提升用戶隱私安全。

模型性能與特點

Omnivision-968M在推理速度上表現優異，能夠在Apple M4 Pro處理器的MacBook上以不到2秒的速度生成1046×1568像素圖像的語言描述，同時僅占用988MB的統一內存。該模型相較于標準LLaVA架構進行了兩大改進：其一，圖像Token從729減少到81，實現了9倍的Token壓縮；其二，通過使用可信數據進行DPO訓練，降低幻覺現象，提高了結果的可靠性。

模型結構與訓練方法

Omnivision的架構由三個關鍵組件構成：基礎語言模型Qwen2.5-0.5B-Instruct、視覺編碼器SigLIP-400M和投影層MLP。在訓練階段，Omnivision首先進行預訓練，建立視覺-語言對齊，然后通過圖像問答數據集增強模型的上下文理解能力，最后采用直接偏好優化（DPO）進行微調，確保模型在不改變核心響應特征的情況下進行必要的改進。

實驗與性能評測

性能評測顯示，Omnivision在多個任務中表現優于之前的視覺語言模型nanoLLAVA，但略遜于Qwen2-VL-2B。Omnivision能夠在生成圖像描述、尋找圖像目標、分析食物圖像生成食譜等任務中展現出其強大的能力。

總之，Omnivision-968M以其高效的性能和小巧的體積，展示了端側生成式AI模型的未來潛力，為用戶提供了更為安全和高效的AI解決方案。期待在即將舉行的2024中國生成式AI大會上，聽到更多關于這一模型的討論與應用案例。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關注大模型與AI智能體，及時搜羅生成式AI技術產品。

閱讀原文

# AIGC動態 # Omnivision-968M # 人工智能 # 多模態模型 # 計算機視覺 # 邊緣設備

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

顛覆邊緣計算：Omnivision-968M引領最小多模態模型新時代！

目前市場上最小的視覺語言模型之一

2024中國生成式AI大會（上海站）預告

Omnivision-968M模型介紹

模型性能與特點

模型結構與訓練方法

實驗與性能評測

聯系作者

誰在利用AI賺取巨額利潤？揭秘成功背后的秘密！

“揭示真相：OpenAI的潛力與現實之間的鴻溝”

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點