AI項目和框架

Lego-Edit

Lego-Edit 是小米開源的基于指令的圖像編輯框架,通過多模態大語言模型(MLLM)的泛化能力,實現對圖像的靈活編輯。采用模型級工具包,包含多種高效訓練的模...
閱讀原文

FastMTP

FastMTP 是騰訊自研的大語言模型(LLM)推理加速技術,通過優化多標記預測(MTP)技術,用共享權重的單 MTP 頭替代傳統多獨立模塊,結合語言感知詞匯壓縮和自...
閱讀原文

Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio是小米開源的首個原生端到端語音大模型。模型基于創新預訓練架構和上億小時訓練數據,首次在語音領域實現了基于 In-Context Learning(ICL...
閱讀原文

Lucy Edit Dev

Lucy Edit Dev 是 Decart AI 團隊開源的基于文本指令的視頻編輯模型。能根據簡單的文本提示對視頻進行多種編輯操作,如更改服裝、替換角色、插入對象和轉換場...
閱讀原文

Wan2.2-Animate

Wan2.2-Animate是阿里通義團隊推出的動作生成模型,模型同時支持動作模仿和角色扮演兩種模式,能基于表演者的視頻,精確復制面部表情和動作,生成高度逼真的...
閱讀原文

Ling-V2

Ling-V2 是螞蟻百靈團隊推出的基于 MoE 架構的大型語言模型家族,首個版本 Ling-mini-2.0 擁有 160 億總參數,每個輸入標記僅激活 14 億參數。
閱讀原文

VoxCPM

VoxCPM 是面壁智能與清華大學深圳國際研究生院聯合開發的 0.5B 參數語音生成模型。在語音合成的自然度、音色相似度及韻律表現力方面達到了業界頂尖水平。VoxC...
閱讀原文

InternVLA-A1

InternVLA-A1 是上海人工智能實驗室和國家地方共建人形機器人創新中心聯合發布的具身操作大模型。具備理解、想象、執行一體化的能力,能精準地完成任務。模型...
閱讀原文

ReSum

ReSum 是阿里通義推出的新型WebAgent 推理范式,隸屬通義DeepResearch家族,能解決 WebAgent 在長視界任務中面臨的上下文長度限制問題,通過周期性地對交互歷...
閱讀原文

Octofriend

Octofriend 是智能編程助手,能像貼心伙伴一樣在 GPT-5、Claude 等大型語言模型(LLM)間自由切換,根據任務需求挑選最優模型。
閱讀原文

InternVLA·N1

InternVLA·N1是上海人工智能實驗室開源的端到端雙系統導航大模型。采用雙系統架構,系統2負責理解語言指令并規劃長程路徑,系統1專注于高頻響應和敏捷避障。...
閱讀原文

MCP Registry

MCP Registry 是 GitHub 推出的中心化平臺,為開發者提供集中發現和安裝 MCP 服務器。平臺解決以往 MCP 服務器分散在多個注冊中心、隨機倉庫和社區討論中的問...
閱讀原文

WebResearcher

WebResearcher是阿里巴巴自通義實驗室推出的迭代式深度研究智能體,隸屬通義DeepResearch家族,基于創新的迭代深度研究范式,模擬人類專家的認知工作流程,能...
閱讀原文

WebWeaver

WebWeaver 是阿里巴巴通義團隊推出的新型雙智能體框架,隸屬通義DeepResearch家族,用在開放性深度研究。WebWeaver 模擬人類研究過程,將任務分為規劃(探索...
閱讀原文

通義DeepResearch

通義DeepResearch 是阿里巴巴推出的開源深度研究智能體,專為長周期、深度信息檢索任務設計。擁有 300 億參數,每次激活 30 億參數,支持 ReAct 模式和深度模...
閱讀原文
11011121314155