AI項目和框架

Motion Anything

Motion Anything 是澳大利亞國立大學(xué)、悉尼大學(xué)、騰訊、麥吉爾大學(xué)、京東等機構(gòu)推出的多模態(tài)運動生成框架,根據(jù)文本、音樂或兩者的組合生成高質(zhì)量、可控的人...
閱讀原文

Reka Flash 3

Reka Flash 3 是 Reka AI 推出的開源推理模型,擁有 21 億參數(shù)。支持多模態(tài)輸入,包括文本、圖像、視頻和音頻,可處理最多 32k 個令牌的上下文長度,適用于一...
閱讀原文

MM-StoryAgent

MM-StoryAgent 是上海交通大學(xué)X-LANCE實驗室和阿里巴巴集團聯(lián)合推出的開源、多模態(tài)、多智能體框架,用在生成沉浸式的有聲故事繪本視頻。基于結(jié)合大型語言模型...
閱讀原文

Deep Research Web UI

Deep Research Web UI 是開源的 AI 研究助手工具,幫助用戶高效地進行深度研究。通過 AI 驅(qū)動的迭代搜索,逐步深入挖掘指定主題,以樹狀結(jié)構(gòu)可視化研究過程,...
閱讀原文

Gemma 3

Gemma 3 是谷歌最新推出的開源人工智能模型,專為開發(fā)者設(shè)計,支持多種設(shè)備上的人工智能應(yīng)用開發(fā)。支持超過 35 種語言,具備分析文本、圖像及短視頻的能力,...
閱讀原文

PP-DocBee

PP-DocBee是百度飛槳(PaddlePaddle)團隊推出的專注于文檔圖像理解的多模態(tài)大模型。基于ViT+MLP+LLM架構(gòu),具備強大的中文文檔解析能力,能高效處理文字、表...
閱讀原文

BEHAVIOR Robot Suite

BEHAVIOR Robot Suite(BRS)是斯坦福大學(xué)李飛飛團隊推出的用在學(xué)習(xí)全身操作完成日常家務(wù)任務(wù)的框架。基于分析家務(wù)活動,確定機器人需要具備的關(guān)鍵能力,包括...
閱讀原文

VACE

VACE(Video Creation and Editing)是阿里巴巴通義實驗室推出的一站式視頻生成與編輯框架。基于整合多種視頻任務(wù)(如參考視頻生成、視頻到視頻編輯、遮罩編...
閱讀原文

Seedream 2.0

Seedream 2.0 是字節(jié)跳動豆包大模型團隊推出的原生中英雙語圖像生成模型,解決現(xiàn)有模型在文本渲染、文化理解等方面的不足。模型通過自研的雙語大語言模型(LL...
閱讀原文

MV-MATH

MV-MATH 是中科院自動化所提出的新基準(zhǔn)數(shù)據(jù)集,評估多模態(tài)大語言模型(MLLMs)在多視覺場景中的數(shù)學(xué)推理能力。數(shù)據(jù)集包含2009個高質(zhì)量的數(shù)學(xué)問題,每個問題都...
閱讀原文

PlanGEN

PlanGEN 是谷歌研究團隊推出的多智能體框架,通過多智能體協(xié)作、約束引導(dǎo)和算法自適應(yīng)選擇,解決復(fù)雜問題的規(guī)劃和推理。包含三個關(guān)鍵組件:約束智能體、驗證...
閱讀原文

MHA2MLA

MHA2MLA是復(fù)旦大學(xué)、華東師范大學(xué)、上海AI Lab等機構(gòu)聯(lián)合推出的數(shù)據(jù)高效的微調(diào)方法,基于引入DeepSeek的多頭潛在注意力機制(MLA),優(yōu)化任何基于Transformer...
閱讀原文

GaussianAnything

GaussianAnything 是南洋理工大學(xué) S-Lab 聯(lián)合上海 AI Lab 等機構(gòu)推出的 3D 生成框架。GaussianAnything 基于交互式的點云結(jié)構(gòu)化潛空間和級聯(lián)的流匹配模型,實...
閱讀原文

DeepSeek百寶箱

DeepSeek百寶箱是 DeepSeek 團隊維護的 GitHub 項目,展示如何將 DeepSeek API 集成到各種流行軟件中。項目列出了一系列支持 DeepSeek 的工具和應(yīng)用,涵蓋了...

Anus

Anus(Autonomous Networked Utility System)是 Manus 生成的開源自主智能體項目,復(fù)刻 Manus 的部分功能。Anus支持自然語言指令執(zhí)行、多代理協(xié)作、網(wǎng)絡(luò)交互...
閱讀原文
15152535455146