AI Safeguard聯(lián)合卡內(nèi)基梅隆和斯坦福開源的輕量級(jí)多模態(tài)模型

產(chǎn)品名稱：Ivy-VL
產(chǎn)品簡介：Ivy-VL是AI Safeguard聯(lián)合卡內(nèi)基梅隆大學(xué)和斯坦福大學(xué)推出的輕量級(jí)多模態(tài)AI模型，專為移動(dòng)端和邊緣設(shè)備設(shè)計(jì)。模型擁有3B參數(shù)量，相較于其他多模態(tài)大模型，顯著降低計(jì)算資源需求，能在AI眼鏡、智能手機(jī)等資源受限設(shè)備上高效運(yùn)行。
詳細(xì)介紹：

Ivy-VL是什么

Ivy-VL是AI Safeguard聯(lián)合卡內(nèi)基梅隆大學(xué)和斯坦福大學(xué)推出的輕量級(jí)多模態(tài)AI模型，專為移動(dòng)端和邊緣設(shè)備設(shè)計(jì)。模型擁有3B參數(shù)量，相較于其他多模態(tài)大模型，顯著降低計(jì)算資源需求，能在AI眼鏡、智能手機(jī)等資源受限設(shè)備上高效運(yùn)行。Ivy-VL在視覺問答、圖像描述、復(fù)雜推理等多模態(tài)任務(wù)中展現(xiàn)卓越的性能，在OpenCompass評(píng)測(cè)中取得4B以下模型最佳成績。

Ivy-VL的主要功能

視覺問答（Visual Q&A）：理解和回答與圖像內(nèi)容相關(guān)的問題。
圖像描述（Image Description）：模型能生成描述圖像內(nèi)容的文本。
復(fù)雜推理（Complex Reasoning）：處理涉及多步驟推理的視覺任務(wù)。
多模態(tài)數(shù)據(jù)處理：在智能家居和物聯(lián)網(wǎng)（IoT）設(shè)備中，處理和理解來自不同模態(tài)（如視覺和語言）的數(shù)據(jù)。
增強(qiáng)現(xiàn)實(shí)（AR）體驗(yàn)：在智能穿戴設(shè)備中，支持實(shí)時(shí)視覺問答，增強(qiáng)AR體驗(yàn)。

Ivy-VL的技術(shù)原理

輕量化設(shè)計(jì)：Ivy-VL僅有3B參數(shù)，在資源受限的設(shè)備上更加高效。
多模態(tài)融合技術(shù)：Ivy-VL結(jié)合先進(jìn)的視覺編碼器和強(qiáng)大的語言模型，實(shí)現(xiàn)不同模態(tài)之間的有效信息融合。
視覺編碼器：用Google的google/siglip-so400m-patch14-384視覺編碼器處理和理解圖像信息。
語言模型：結(jié)合Qwen2.5-3B-Instruct語言模型理解和生成文本信息。
優(yōu)化的數(shù)據(jù)集訓(xùn)練：基于精心選擇和優(yōu)化的數(shù)據(jù)集進(jìn)行訓(xùn)練，提高模型在多模態(tài)任務(wù)中的表現(xiàn)。

Ivy-VL的項(xiàng)目地址

項(xiàng)目官網(wǎng)：ai-safeguard.org
HuggingFace模型庫：https://huggingface.co/AI-Safeguard/Ivy-VL
在線體驗(yàn)Demo：https://huggingface.co/spaces/AI-Safeguard/Ivy-VL

Ivy-VL的應(yīng)用場(chǎng)景

智能穿戴設(shè)備：提供實(shí)時(shí)視覺問答功能，輔助用戶在增強(qiáng)現(xiàn)實(shí)（AR）環(huán)境中獲取信息。
手機(jī)端智能助手：提供更智能的多模態(tài)交互能力，如圖像識(shí)別和語音交互，提升用戶體驗(yàn)。
物聯(lián)網(wǎng)（IoT）設(shè)備：在智能家居和IoT場(chǎng)景中實(shí)現(xiàn)高效的多模態(tài)數(shù)據(jù)處理，如用圖像和語音控制家居設(shè)備。
移動(dòng)端教育與娛樂：在教育軟件中增強(qiáng)圖像理解與交互能力，推動(dòng)移動(dòng)學(xué)習(xí)和沉浸式娛樂體驗(yàn)。
視覺問答系統(tǒng)：在博物館、展覽中心等場(chǎng)所，用戶用拍照提問，系統(tǒng)提供相關(guān)信息。

閱讀原文