標簽:多模態理解

RecGPT

RecGPT是淘天集團推出的百億參數推薦大模型。現已全面接入手機淘寶首屏“猜你喜歡”信息流,基于融合多模態認知、用戶行為分析及實時熱點理解,精準捕捉用戶長...
閱讀原文

Qwen VLo

Qwen VLo 是通義千問團隊推出的多模態統一理解與生成模型。在多模態大模型的基礎上進行了全面升級,能“看懂”世界,能基于理解進行高質量的再創造,實現了從感...
閱讀原文

混元-A13B

混元-A13B是騰訊最新推出的開源大語言模型,基于專家混合(MoE)架構,總參數量達800億,激活參數為130億。具備輕量級設計和高效推理能力,僅需1張中低端GPU...
閱讀原文

盤古大模型 5.5

盤古大模型5.5是華為在開發者大會(HDC 2025)上發布的最新一代人工智能大模型。模型強調“不作詩,只做事”,專注于解決實際產業問題,推動千行百業的智能化升...
閱讀原文

Kimi-Researcher

Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主強化學習(end-to-end agentic RL)技術訓練的新一代 Agent 模型,專為深度研究任務而設計。能...
閱讀原文

V-JEPA 2

V-JEPA 2 是Meta AI推出的世界大模型,基于視頻數據實現對物理世界的理解、預測和規劃。V-JEPA 2 用于 12 億參數的聯合嵌入預測架構(JEPA),基于自監督學習...
閱讀原文

SmolVLA

SmolVLA 是 Hugging Face 開源的輕量級視覺-語言-行動(VLA)模型,專為經濟高效的機器人設計。擁有4.5億參數,模型小巧,可在CPU上運行,單個消費級GPU即可...
閱讀原文

dots.llm1

dots.llm1 是小紅書 hi lab 開源的中等規模 Mixture of Experts(MoE)文本大模型,具有 1420 億參數,激活參數為 140 億。模型在 11.2T 高質量 token 數據上...
閱讀原文

MiniCPM 4.0

MiniCPM 4.0 是面壁智能推出的端側大模型。模型分為 8B 和 0.5B 兩種參數規模。8B 閃電稀疏版采用創新稀疏架構,能高效處理長文本任務;0.5B 版本以低計算資...
閱讀原文

從容大模型

從容大模型是云從科技推出的多模態AI模型。模型在國際權威評測平臺OpenCompass的多模態榜單中以80.7分登頂,超越谷歌、OpenAI等頂尖團隊。
閱讀原文

MiMo-VL

MiMo-VL 是小米開源的多模態大模型,由視覺編碼器、跨模態投影層和語言模型構成,視覺編碼器基于Qwen2.5-ViT,語言模型是小米自研的MiMo-7B。
閱讀原文

Gemini Diffusion

Gemini Diffusion是谷歌推出的實驗性文本擴散模型。與傳統自回歸模型逐詞生成文本不同,基于逐步細化噪聲生成輸出,能快速迭代糾正錯誤,讓Gemini Diffusion...
閱讀原文

DeepSeek-Prover-V2-671B

DeepSeek-Prover-V2-671B 是 DeepSeek 在 Hugging Face 開源社區推出的專注于數學推理的超大規模語言模型。模型擁有 6710 億參數,是去年發布的數學 AI 模型 ...
閱讀原文

DeepSeek-R1T-Chimera

DeepSeek-R1T-Chimera 是TNG科技公司推出的開源語言模型。結合 DeepSeek V3-0324 和DeepSeek R1兩種模型的優勢,基于創新的構建方法,將兩者的神經網絡組件融...
閱讀原文
123