標簽:圖像理解

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

Qianfan-VL

Qianfan-VL是百度智能云千帆推出的面向企業級多模態應用場景的視覺理解大模型。模型包含3B、8B和70B三種尺寸版本,具備出色的通用能力和針對OCR、教育等垂直...
閱讀原文

dots.vlm1

dots.vlm1 是小紅書 hi lab 開源的首個多模態大模型。基于一個從零訓練的 12 億參數視覺編碼器 NaViT 和 DeepSeek V3 大語言模型(LLM),具備強大的視覺感知...
閱讀原文

Pic Answer

Pic Answer 是 Tech Consolidated Inc. 推出的智能教育應用,通過拍照快速解答學術問題。用戶只需拍攝題目或問題的照片,應用會借助先進的人工智能技術,迅速...
閱讀原文

FastVLM

FastVLM是蘋果推出的高效的視覺語言模型(VLM),能提升高分辨率圖像處理的效率和性能。模型引入FastViTHD新型混合視覺編碼器,有效減少視覺token數量,顯著...
閱讀原文

心影大模型

心影大模型是心影隨形頂尖AI團隊研發的AI大模型,正式通過國家生成式人工智能服務備案。模型專注于游戲領域,深度融合游戲攻略與角色陪伴場景,全面應用于“逗...
閱讀原文

InternVL

InternVL 是上海人工智能實驗室 OpenGVLab 推出的多模態大模型,專注于視覺與語言任務。采用 ViT-MLP-LLM 架構,通過視覺模塊(如 InternViT)和語言模塊(如...
閱讀原文

VLM-R1

VLM-R1 是 Om AI Lab 推出的基于強化學習技術的視覺語言模型,通過自然語言指令精確定位圖像中的目標物體,如根據描述“圖中紅色的杯子”找到對應的圖像區域。...
閱讀原文

什么是視覺語言模型(Vision-Language Models, VLMs)

視覺語言模型(Vision-Language Models, VLMs)是一種多模態人工智能系統,它結合了圖像和文本的處理能力,以執行高級視覺語言任務,如視覺問答(Visual Ques...
閱讀原文

CogVLM2

CogVLM2是由智譜AI推出的新一代多模態大模型,在視覺和語言理解方面實現了顯著的性能提升,支持高達8K的文本長度和1344*1344分辨率的圖像輸入,具備強大的文...
閱讀原文

LLaVA-OneVision

LLaVA-OneVision是字節跳動推出開源的多模態AI模型,LLaVA-OneVision通過整合數據、模型和視覺表示的見解,能同時處理單圖像、多圖像和視頻場景下的計算機視...
閱讀原文

CoCoClip.AI

CocoClip 是一款面向社交媒體內容創作者的 AI 視頻創作和編輯平臺,專門設計用于制作適合 YouTube Shorts、TikTok 和 Instagram Reels 等平臺的短視頻。提供...
閱讀原文

Mini-LLaVA

Mini-LLaVA是一款輕量級的多模態大語言模型,由清華大學和北京航空航天大學的研究團隊聯合開發。能處理圖像、文本和視頻輸入,實現高效的多模態數據處理。Min...
閱讀原文