AI項目和框架

MIDI

MIDI(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是先進的3D場景生成技術,能在短時間內將單張圖像轉化為高保真度的3D場景。通過...
閱讀原文

Evolving Agents

Evolving Agents 是用在創建、管理和進化 AI 代理的生產級框架。Evolving Agents支持智能代理之間的通信和協作,根據語義理解需求、基于過往經驗進化,有效解...
閱讀原文

Open-Sora 2.0

Open-Sora 2.0 是潞晨科技推出的全新開源SOTA(State-of-the-Art)視頻生成模型。Open-Sora 2.0 用 20 萬美元(224 張 GPU)成功訓練出 11B 參數的商業級模型...
閱讀原文

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的機器人項目,將大型多模態模型的能力引入物理世界。項目包含兩個主要模型:Gemini Robotics-ER 和...
閱讀原文

PP-TableMagic

PP-TableMagic 是百度飛槳團隊推出的高性能表格識別工具,用在將圖片中的表格結構化信息提取出來,轉換為 HTML 等格式,進行進一步的數據處理和分析。PP-Tabl...
閱讀原文

子曰翻譯2.0

子曰翻譯2.0是網易有道推出的最新翻譯大模型,模型在數據、算法和評估三個關鍵維度進行了系統性升級,實現了翻譯質量、效率和魯棒性的質的飛躍。 在數據層面...
閱讀原文

Motion Anything

Motion Anything 是澳大利亞國立大學、悉尼大學、騰訊、麥吉爾大學、京東等機構推出的多模態運動生成框架,根據文本、音樂或兩者的組合生成高質量、可控的人...
閱讀原文

Reka Flash 3

Reka Flash 3 是 Reka AI 推出的開源推理模型,擁有 21 億參數。支持多模態輸入,包括文本、圖像、視頻和音頻,可處理最多 32k 個令牌的上下文長度,適用于一...
閱讀原文

MM-StoryAgent

MM-StoryAgent 是上海交通大學X-LANCE實驗室和阿里巴巴集團聯合推出的開源、多模態、多智能體框架,用在生成沉浸式的有聲故事繪本視頻。基于結合大型語言模型...
閱讀原文

Deep Research Web UI

Deep Research Web UI 是開源的 AI 研究助手工具,幫助用戶高效地進行深度研究。通過 AI 驅動的迭代搜索,逐步深入挖掘指定主題,以樹狀結構可視化研究過程,...
閱讀原文

Gemma 3

Gemma 3 是谷歌最新推出的開源人工智能模型,專為開發者設計,支持多種設備上的人工智能應用開發。支持超過 35 種語言,具備分析文本、圖像及短視頻的能力,...
閱讀原文

PP-DocBee

PP-DocBee是百度飛槳(PaddlePaddle)團隊推出的專注于文檔圖像理解的多模態大模型。基于ViT+MLP+LLM架構,具備強大的中文文檔解析能力,能高效處理文字、表...
閱讀原文

BEHAVIOR Robot Suite

BEHAVIOR Robot Suite(BRS)是斯坦福大學李飛飛團隊推出的用在學習全身操作完成日常家務任務的框架。基于分析家務活動,確定機器人需要具備的關鍵能力,包括...
閱讀原文

VACE

VACE(Video Creation and Editing)是阿里巴巴通義實驗室推出的一站式視頻生成與編輯框架。基于整合多種視頻任務(如參考視頻生成、視頻到視頻編輯、遮罩編...
閱讀原文

Seedream 2.0

Seedream 2.0 是字節跳動豆包大模型團隊推出的原生中英雙語圖像生成模型,解決現有模型在文本渲染、文化理解等方面的不足。模型通過自研的雙語大語言模型(LL...
閱讀原文
16061626364155