標簽:多模態學習

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

ReasonIR-8B

ReasonIR-8B 是 Meta AI 推出的專為推理密集型檢索任務設計的模型。基于 LLaMA3.1-8B 訓練,采用雙編碼器架構,將查詢和文檔分別編碼為嵌入向量,通過余弦相...
閱讀原文

InternVL

InternVL 是上海人工智能實驗室 OpenGVLab 推出的多模態大模型,專注于視覺與語言任務。采用 ViT-MLP-LLM 架構,通過視覺模塊(如 InternViT)和語言模塊(如...
閱讀原文

CogView4

CogView4 是智譜推出的開源文生圖模型,具有60億參數,支持原生中文輸入和中文文字生成。模型在 DPG-Bench 基準測試中綜合評分排名第一,達到開源文生圖模型...
閱讀原文

VLM-R1

VLM-R1 是 Om AI Lab 推出的基于強化學習技術的視覺語言模型,通過自然語言指令精確定位圖像中的目標物體,如根據描述“圖中紅色的杯子”找到對應的圖像區域。...
閱讀原文

ImageRAG

ImageRAG 是基于檢索增強生成(Retrieval-Augmented Generation, RAG)的圖像生成技術,通過動態檢索相關圖像來提升文本到圖像(T2I)模型生成罕見或未見概念...
閱讀原文

LLaVA-Rad

LLaVA-Rad是微軟研究院推出的小型多模態模型,專注于臨床放射學報告生成。是LLaVA-Med項目的分支,特別是胸部X光(CXR)成像。基于LLaVA-Med的基礎架構和訓練...
閱讀原文

CogView-3-Flash

CogView-3-Flash 是智譜推出的首個免費AI圖像生成模型,能根據文本描述生成高審美分數的圖像,支持多種分辨率,滿足專業領域需求。模型具備創意多樣性,基于...
閱讀原文

MiniRAG

MiniRAG是香港大學推出的新型檢索增強型生成(RAG)系統,專為在資源受限的場景下高效部署小型語言模型(SLMs)設計。MiniRAG基于兩個關鍵技術實現這一目標:...
閱讀原文

FlexRAG

FlexRAG 是創新的檢索增強生成(RAG)框架,旨在解決傳統 RAG 系統在處理長上下文時面臨的計算成本高和生成質量不足的問題。通過將檢索到的上下文信息壓縮成...
閱讀原文

什么是視頻擴散模型(Video Diffusion Models, VDM)

視頻擴散模型(Video Diffusion Models, VDM)是一種結合了變分自編碼器(VAE)和擴散模型優勢的生成模型。VDM的核心思想是在潛在空間中進行擴散過程,而不是...
閱讀原文

田淵棟:2024年年終總結

原標題:田淵棟:2024年年終總結 文章來源:新智元 內容字數:7452字田淵棟2024年AI研究總結及2025年展望 本文總結了田淵棟博士2024年在人工智能領域的研究...
閱讀原文

VideoVAE+

VideoVAE+(VideoVAE Plus)是香港科技大學團隊推出的先進的跨模態視頻變分自編碼器(Video VAE),通過引入新的時空分離壓縮機制和文本指導,實現了對大幅運...
閱讀原文
1234