AI項目和框架

MeshPad

MeshPad 是基于草圖輸入的交互式藝術化網格生成與編輯工具,能將簡單的二維草圖迅速轉化為高質量的 3D 網格模型,支持實時編輯。用戶在草圖上添加或刪除線條...
閱讀原文

TrajectoryCrafter

TrajectoryCrafter 是騰訊PCG ARC Lab和香港中文大學推出的,用在單目視頻的相機軌跡重定向方法,支持在后期自由調整視頻的相機位置和角度,輕松改變視頻中的...
閱讀原文

LanPaint

LanPaint 是?為Stable Diffusion 模型設計的高質量圖像修復工具,無需額外訓練實現精準的圖像修復和替換。LanPaint基于多輪迭代推理優化修復效果,支持無縫且...
閱讀原文

START

START(Self-Taught Reasoner with Tools)是阿里巴巴集團和中國科學技術大學推出的新型工具增強型推理模型,結合外部工具(如Python代碼執行器)提升大型語...
閱讀原文

SeedFoley

SeedFoley 是字節跳動豆包大模型語音團隊開發的端到端視頻音效生成模型,為視頻創作提供智能音效生成服務。通過融合時空視頻特征與擴散生成模型,實現音效與...
閱讀原文

R1-Omni

R1-Omni 是阿里通義推出的基于強化學習(RLVR)的全模態大語言模型,專注于情感識別任務。通過結合視覺和音頻信息,能清晰地解釋情感識別的推理過程,展現出...
閱讀原文

FoxBrain

FoxBrain 是鴻海研究院推出的繁體中文大型語言模型(LLM),具有強大的推理能力。基于 Meta Llama 3.1 架構,擁有 70B 參數,專注于數學和邏輯推理領域。FoxB...
閱讀原文

COMET

COMET是字節跳動推出的針對Mixture-of-Experts(MoE)模型的優化系統,能解決分布式訓練中通信開銷過大的問題。基于細粒度的計算-通信重疊技術,COMET將通信...
閱讀原文

VideoPainter

VideoPainter 是香港中文大學、騰訊ARC Lab、東京大學、澳門大學等機構推出的視頻修復和編輯框架,專門用在處理任意長度的視頻內容。VideoPainter基于雙分支...
閱讀原文

LanDiff

LanDiff是用于高質量的文本到視頻(T2V)生成的創新混合框架,結合了自回歸語言模型(LLM)和擴散模型(Diffusion Model)的優勢,通過粗到細的生成方式,有...
閱讀原文

IMAGPose

IMAGPose 是南京理工大學推出的用于人體姿態引導圖像生成的統一條件框架。解決傳統方法在姿態引導的人物圖像生成中存在的局限性,如無法同時生成多個不同姿態...
閱讀原文

Heygem

Heygem 是硅基智能推出的開源數字人模型,專為 Windows 系統設計。基于先進的AI技術,僅需 1 秒視頻或 1 張照片,能在 30 秒內完成數字人形象和聲音克隆,在 ...
閱讀原文

GO-1

GO-1(Genie Operator-1,智元啟元大模型)是智元機器人推出的首個通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架構,由VLM(多模態大...
閱讀原文

Gemini Embedding

Gemini Embedding 是 Google 推出的先進的文本嵌入模型,基于將文本轉化為高維數值向量,捕捉其語義和上下文信息。Gemini Embedding基于 Gemini 模型訓練,具...
閱讀原文

DoraCycle

DoraCycle 是新加坡國立大學 Show Lab 推出多模態領域適應的統一生成模型,通過兩個多模態循環(text-to-image-to-text 和 image-to-text-to-image)實現不同...
閱讀原文
15253545556146