AI項目和框架

MV-MATH

MV-MATH 是中科院自動化所提出的新基準數據集,評估多模態大語言模型(MLLMs)在多視覺場景中的數學推理能力。數據集包含2009個高質量的數學問題,每個問題都...
閱讀原文

PlanGEN

PlanGEN 是谷歌研究團隊推出的多智能體框架,通過多智能體協作、約束引導和算法自適應選擇,解決復雜問題的規劃和推理。包含三個關鍵組件:約束智能體、驗證...
閱讀原文

MHA2MLA

MHA2MLA是復旦大學、華東師范大學、上海AI Lab等機構聯合推出的數據高效的微調方法,基于引入DeepSeek的多頭潛在注意力機制(MLA),優化任何基于Transformer...
閱讀原文

GaussianAnything

GaussianAnything 是南洋理工大學 S-Lab 聯合上海 AI Lab 等機構推出的 3D 生成框架。GaussianAnything 基于交互式的點云結構化潛空間和級聯的流匹配模型,實...
閱讀原文

DeepSeek百寶箱

DeepSeek百寶箱是 DeepSeek 團隊維護的 GitHub 項目,展示如何將 DeepSeek API 集成到各種流行軟件中。項目列出了一系列支持 DeepSeek 的工具和應用,涵蓋了...

Anus

Anus(Autonomous Networked Utility System)是 Manus 生成的開源自主智能體項目,復刻 Manus 的部分功能。Anus支持自然語言指令執行、多代理協作、網絡交互...
閱讀原文

MeshPad

MeshPad 是基于草圖輸入的交互式藝術化網格生成與編輯工具,能將簡單的二維草圖迅速轉化為高質量的 3D 網格模型,支持實時編輯。用戶在草圖上添加或刪除線條...
閱讀原文

TrajectoryCrafter

TrajectoryCrafter 是騰訊PCG ARC Lab和香港中文大學推出的,用在單目視頻的相機軌跡重定向方法,支持在后期自由調整視頻的相機位置和角度,輕松改變視頻中的...
閱讀原文

LanPaint

LanPaint 是?為Stable Diffusion 模型設計的高質量圖像修復工具,無需額外訓練實現精準的圖像修復和替換。LanPaint基于多輪迭代推理優化修復效果,支持無縫且...
閱讀原文

START

START(Self-Taught Reasoner with Tools)是阿里巴巴集團和中國科學技術大學推出的新型工具增強型推理模型,結合外部工具(如Python代碼執行器)提升大型語...
閱讀原文

SeedFoley

SeedFoley 是字節跳動豆包大模型語音團隊開發的端到端視頻音效生成模型,為視頻創作提供智能音效生成服務。通過融合時空視頻特征與擴散生成模型,實現音效與...
閱讀原文

R1-Omni

R1-Omni 是阿里通義推出的基于強化學習(RLVR)的全模態大語言模型,專注于情感識別任務。通過結合視覺和音頻信息,能清晰地解釋情感識別的推理過程,展現出...
閱讀原文

FoxBrain

FoxBrain 是鴻海研究院推出的繁體中文大型語言模型(LLM),具有強大的推理能力。基于 Meta Llama 3.1 架構,擁有 70B 參數,專注于數學和邏輯推理領域。FoxB...
閱讀原文

COMET

COMET是字節跳動推出的針對Mixture-of-Experts(MoE)模型的優化系統,能解決分布式訓練中通信開銷過大的問題。基于細粒度的計算-通信重疊技術,COMET將通信...
閱讀原文

VideoPainter

VideoPainter 是香港中文大學、騰訊ARC Lab、東京大學、澳門大學等機構推出的視頻修復和編輯框架,專門用在處理任意長度的視頻內容。VideoPainter基于雙分支...
閱讀原文
16162636465155