AI項目和框架

Ming-lite-omni

Ming-Lite-Omni是螞蟻集團開源的統一多模態大模型。模型基于MoE架構,融合文本、圖像、音頻和視頻等多種模態的感知能力,具備強大的理解和生成能力。模型在多...
閱讀原文

HunyuanVideo-Avatar

HunyuanVideo-Avatar是騰訊混元團隊與騰訊音樂天琴實驗室聯合研發的語音數字人模型,基于多模態擴散Transformer架構,能生成動態、情感可控以及多角色對話視...
閱讀原文

Jodi

Jodi是中國科學院計算技術研究所和中國科學院大學推出的擴散模型框架,基于聯合建模圖像域和多個標簽域,將視覺生成與理解統一起來。
閱讀原文

HunyuanPortrait

HunyuanPortrait 是騰訊 Hunyuan 團隊聯合清華大學、中山大學和香港科技大學等機構共同推出的基于擴散模型的框架,用在生成高度可控且逼真的肖像動畫。基于給...
閱讀原文

PC Agent-E

PC Agent-E是上海交通大學和SII聯合推出的高效智能體訓練框架??蚣苡?12條人類標注的計算機使用軌跡,基于Claude 3.7 Sonnet模型合成多樣化的行動決策,顯著...
閱讀原文

CAR

CAR(Certainty-based Adaptive Reasoning)是字節跳動聯合復旦大學推出的自適應推理框架,能提升大型語言模型(LLM)和多模態大型語言模型(MLLM)在不同任...
閱讀原文

WonderPlay

WonderPlay 是斯坦福大學聯合猶他大學推出的新型框架,支持從單張圖片和用戶定義的動作生成動態3D場景?;诮Y合物理模擬和視頻生成技術,用物理求解器模擬粗...
閱讀原文

LMEval

LMEval 是谷歌推出的開源框架,用在簡化大型模型(LLMs)的跨提供商評估。框架支持多模態(文本、圖像、代碼)和多指標評估,兼容 Google、OpenAI、Anthropic...
閱讀原文

LLaDA-V

LLaDA-V是中國人民大學高瓴人工智能學院、螞蟻集團推出的多模態大語言模型(MLLM),基于純擴散模型架構,專注于視覺指令微調。模型在LLaDA的基礎上,引入視...
閱讀原文

Company Research Agent

Company Research Agent是基于多智能體框架的公司研究工具,支持一鍵自動生成全面的公司研究報告。工具從公司網站、新聞文章、財務報告和行業分析等多源數據...
閱讀原文

Direct3D-S2

Direct3D-S2 是南京大學、DreamTech、復旦大學和牛津大學的研究人員共同推出的高分辨率 3D 生成框架,基于稀疏體積表示和創新的空間稀疏注意力(SSA)機制,...
閱讀原文

QwenLong-L1

QwenLong-L1-32B 是阿里巴巴集團 Qwen-Doc 團隊推出的,基于強化學習訓練的首個長文本推理大模型。模型基于漸進式上下文擴展、課程引導的強化學習和難度感知...
閱讀原文

AgenticSeek

AgenticSeek是完全本地化的開源AI助手,也是 Manus 的開源平替。AgenticSeek能在本地設備上自主執行任務,如瀏覽網頁、編寫代碼、規劃復雜項目等,所有數據和...
閱讀原文

Slidev

Slidev 是開源的幻燈片制作工具,基于 Markdown + Vue 技術棧實現。工具支持用簡單的 Markdown 語法創建幻燈片,支持代碼高亮、實時編碼演示、數學公式渲染、...
閱讀原文

Morphik

Morphik 是開源的多模態檢索增強生成(RAG)工具,專為處理高技術性和視覺內容豐富的文檔設計。支持對圖像、PDF、視頻等多種格式的文檔進行搜索,采用 ColPal...
閱讀原文
13435363738155