標簽:多模態學習

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

Steamer-I2V

Steamer-I2V 是百度 Steamer 團隊推出的圖像到視頻生成模型,通過將靜態圖像轉化為動態視頻,展現出卓越的視覺生成能力。模型在 VBench 國際權威的視頻生成評...
閱讀原文

BLIP3-o

BLIP3-o是Salesforce Research等機構推出的創新多模態模型,融合自回歸模型的推理和指令遵循能力及擴散模型的強大生成能力。模型基于擴散語義豐富的CLIP圖像...
閱讀原文

ViLAMP

ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是螞蟻集團和中國人民大學聯合推出的視覺語言模型,專門用在高效處理長視頻內容。基于混合精度策略,對...
閱讀原文

FastVLM

FastVLM是蘋果推出的高效的視覺語言模型(VLM),能提升高分辨率圖像處理的效率和性能。模型引入FastViTHD新型混合視覺編碼器,有效減少視覺token數量,顯著...
閱讀原文

ReasonIR-8B

ReasonIR-8B 是 Meta AI 推出的專為推理密集型檢索任務設計的模型。基于 LLaMA3.1-8B 訓練,采用雙編碼器架構,將查詢和文檔分別編碼為嵌入向量,通過余弦相...
閱讀原文

InternVL

InternVL 是上海人工智能實驗室 OpenGVLab 推出的多模態大模型,專注于視覺與語言任務。采用 ViT-MLP-LLM 架構,通過視覺模塊(如 InternViT)和語言模塊(如...
閱讀原文

CogView4

CogView4 是智譜推出的開源文生圖模型,具有60億參數,支持原生中文輸入和中文文字生成。模型在 DPG-Bench 基準測試中綜合評分排名第一,達到開源文生圖模型...
閱讀原文

VLM-R1

VLM-R1 是 Om AI Lab 推出的基于強化學習技術的視覺語言模型,通過自然語言指令精確定位圖像中的目標物體,如根據描述“圖中紅色的杯子”找到對應的圖像區域。...
閱讀原文

ImageRAG

ImageRAG 是基于檢索增強生成(Retrieval-Augmented Generation, RAG)的圖像生成技術,通過動態檢索相關圖像來提升文本到圖像(T2I)模型生成罕見或未見概念...
閱讀原文

LLaVA-Rad

LLaVA-Rad是微軟研究院推出的小型多模態模型,專注于臨床放射學報告生成。是LLaVA-Med項目的分支,特別是胸部X光(CXR)成像。基于LLaVA-Med的基礎架構和訓練...
閱讀原文

CogView-3-Flash

CogView-3-Flash 是智譜推出的首個免費AI圖像生成模型,能根據文本描述生成高審美分數的圖像,支持多種分辨率,滿足專業領域需求。模型具備創意多樣性,基于...
閱讀原文

MiniRAG

MiniRAG是香港大學推出的新型檢索增強型生成(RAG)系統,專為在資源受限的場景下高效部署小型語言模型(SLMs)設計。MiniRAG基于兩個關鍵技術實現這一目標:...
閱讀原文
1234