AI項目和框架

SigLIP 2

SigLIP 2 是Google DeepMind 提出先進的多語言視覺-語言模型 ,是 SigLIP 的升級版本,提升圖像與文本之間的對齊能力。通過改進的訓練方法和架構,顯著增強了...
閱讀原文

AvatarGO

AvatarGO 是南洋理工大學S-Lab、上海 AI Lab,香港大學聯合推出的新型框架,用在從文本輸入直接生成可動畫化的 4D 人體與物體交互場景。通過零樣本(zero-sho...
閱讀原文

Moonlight-16B-A3B

Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 億總參數和 30 億激活參數。模型使用了優化后的 Muon 優化器進行訓練...
閱讀原文

FlashMLA

FlashMLA 是 DeepSeek 開源的針對 NVIDIA Hopper 架構 GPU 優化的高效 MLA(Multi-Head Linear Attention)解碼內核,專為處理可變長度序列設計。通過優化 KV...
閱讀原文

MagicArticulate

MagicArticulate 是南洋理工大學和字節跳動Seed實驗室推出的自動將靜態 3D 模型轉換為可動畫化資產的框架。MagicArticulate基于自回歸生成骨架,預測蒙皮權重...
閱讀原文

TANGLED

TANGLED是上海科技大學、Deemos Technology和華中科技大學聯合推出的3D發型生成方法,支持從任意風格和視角的圖像中生成高質量的3D發絲。TANGLED基于三個核心...
閱讀原文

Llasa TTS

Llasa TTS 是香港科技大學基于 LLaMA 架構推出的開源文本轉語音(TTS)模型,支持高質量語音合成和克隆。Llasa TTS 基于單層向量量化(VQ)編解碼器和單個 Tr...
閱讀原文

OOMOL

OOMOL (悟墨)是基于 VSCode 打造的現代化集成開發環境(IDE),專為工作流自動化而設計。通過拖拽式圖形化界面,讓用戶能直觀地搭建復雜的工作流,無需編程...
閱讀原文

Evo 2

Evo 2 是美國弧形研究所、英偉達、斯坦福大學等機構合作推出的DNA語言模型,用于基因組建模和設計,覆蓋生命的所有領域。Evo 2 基于 StripedHyena 2 架構開發...
閱讀原文

Indic Parler-TTS

Indic Parler-TTS 是 Hugging Face 和 AI4Bharat 團隊合作推出的多語言文本到語音(TTS)模型,專門用于印度語言和英語的語音合成。Indic Parler-TTS 是 Parl...
閱讀原文

ComfyUI-Copilot

ComfyUI-Copilot 是阿里巴巴國際數字商業集團(AIDC-AI)推出基于 ComfyUI 框架深度開發的 AI 智能助手。ComfyUI-Copilot給予自然語言交互,為用戶提供節點推...
閱讀原文

Auto-Deep-Research

Auto-Deep-Research 是香港大學黃超教授實驗室開源的全自動個人 AI 助理,作為 OpenAI Deep Research 的開源替代方案。基于 AutoAgent 框架開發,專注于深度...
閱讀原文

Ovis2

Ovis2 是阿里巴巴國際團隊推出的新型多模態大語言模型,基于結構化嵌入對齊解決視覺與文本模態間的差異。Ovis2繼承、優化了 Ovis 系列架構,強化小規模模型的...
閱讀原文

AgentSociety

AgentSociety 是清華大學推出的基于大語言模型(LLM)的社會模擬器,通過構建具有“類人心智”的智能體來模擬復雜的社會行為和現象。結合社會學理論,賦予智能...
閱讀原文

Sitcom-Crafter

Sitcom-Crafter 是北京航空航天大學、香港中文大學(深圳)、悉尼科技大學、中山大學等高校聯合推出的 3D 場景中人類動作生成系統。基于用戶提供的長劇情指導...
閱讀原文
16061626364146