標簽:視覺問答

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

InternVL3.5

InternVL3.5(書生·萬象3.5)是上海人工智能實驗室開源的多模態大模型,模型在通用能力、推理能力和部署效率上全面升級,提供從10億到2410億參數的九種尺寸版...
閱讀原文

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5(簡稱SF-LLaVA-1.5)是專為長視頻理解設計的高效視頻大語言模型。基于雙流(SlowFast)機制,平衡處理更多輸入幀與減少每幀令牌數量之間...
閱讀原文

dots.vlm1

dots.vlm1 是小紅書 hi lab 開源的首個多模態大模型。基于一個從零訓練的 12 億參數視覺編碼器 NaViT 和 DeepSeek V3 大語言模型(LLM),具備強大的視覺感知...
閱讀原文

Qwen VLo

Qwen VLo 是通義千問團隊推出的多模態統一理解與生成模型。在多模態大模型的基礎上進行了全面升級,能“看懂”世界,能基于理解進行高質量的再創造,實現了從感...
閱讀原文

SmolVLA

SmolVLA 是 Hugging Face 開源的輕量級視覺-語言-行動(VLA)模型,專為經濟高效的機器人設計。擁有4.5億參數,模型小巧,可在CPU上運行,單個消費級GPU即可...
閱讀原文

FastVLM

FastVLM是蘋果推出的高效的視覺語言模型(VLM),能提升高分辨率圖像處理的效率和性能。模型引入FastViTHD新型混合視覺編碼器,有效減少視覺token數量,顯著...
閱讀原文

mPLUG-Owl3

mPLUG-Owl3是阿里巴巴推出的先進通用多模態大模型,專為理解和處理多圖及長視頻設計。在保持準確性的同時,顯著提升了推理效率,能在4秒內分析完2小時電影。
閱讀原文

LLaVA-OneVision

LLaVA-OneVision是字節跳動推出開源的多模態AI模型,LLaVA-OneVision通過整合數據、模型和視覺表示的見解,能同時處理單圖像、多圖像和視頻場景下的計算機視...
閱讀原文