AI項目和框架

Yuxi-Know

Yuxi-Know(語析)是基于大模型RAG知識庫與知識圖譜技術構建的智能問答平臺。Yuxi-Know支持多種知識庫文件格式(如PDF、TXT、MD、Docx),支持將文件內容轉換...
閱讀原文

WriteHERE

WriteHERE是Jürgen Schmidhuber領銜的團隊開源的AI長文寫作框架。WriteHERE基于異質遞歸規劃(Heterogeneous Recursive Planning)技術,動態分解寫作任務為...
閱讀原文

MAGI-1

MAGI-1 是 Sand AI 開源的全球首個自回歸視頻生成大模型,采用自回歸架構,通過逐塊預測視頻序列生成流暢自然的視頻,支持無限擴展和一鏡到底的長視頻生成。
閱讀原文

Infinite Mobility

Infinite Mobility 是上海AI Lab推出的可交互物體生成模型,基于程序化生成技術,高效生成高質量的可交互物體數據資產。Infinite Mobility支持22類常見可交互...
閱讀原文

ImagePulse

ImagePulse (圖律脈動)是魔搭社區推出的開源項目,為下一代圖像理解和生成模型提供數據集支持,通過原子化模型的能力并構建原子能力數據集。項目包含多個原...
閱讀原文

SimpleAR

SimpleAR 是復旦大學視覺與學習實驗室和字節 Seed 團隊聯合推出的純自回歸圖像生成模型。采用簡潔的自回歸架構,通過優化訓練和推理過程,實現了高質量的圖像...
閱讀原文

Aether

Aether 是上海AI Lab開源的生成式世界模型,完全基于合成數據訓練。Aether 首次將三維時空建模與生成式建模深度融合,具備 4D 動態重建、動作條件視頻預測和...
閱讀原文

Gemma 3 QAT

Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代開源模型,是Gemma 3 的量化優化版本。通過量化感知訓練技術,Gemma 3 QAT 在顯著降低內存...
閱讀原文

OpenUtau

OpenUtau 是開源的歌聲合成工具,兼容 UTAU 音源庫和重采樣器,支持 VSQX 導入、多語言界面及預渲染功能,幫助創作者快速預覽作品節省時間。OpenUtau現代化的...

SkyReels-V2

SkyReels-V2是昆侖萬維SkyReels團隊推出的無限時長電影生成模型,基于擴散強迫(Diffusion-forcing)框架,結合多模態大語言模型(MLLM)、多階段預訓練、強...
閱讀原文

GigaTok

GigaTok 是用于自回歸圖像生成的視覺分詞器,參數量達 30 億。通過語義正則化技術,將分詞器特征與預訓練視覺編碼器(如 DINOv2)的語義特征對齊,有效約束潛...
閱讀原文

HumanRig

HumanRig 是阿里巴巴團隊開發的 3D 人形角色自動綁定研究項目。解決現有綁定技術因缺乏高質量數據集而發展受限的問題,通過提供大規模、高質量的數據集和創新...
閱讀原文

MineWorld

MineWorld是微軟研究院開源的基于《我的世界》(Minecraft)的實時交互式世界模型,基于視覺-動作自回歸Transformer架構,將游戲場景和動作轉化為離散的token...
閱讀原文

FastAPI-MCP

FastAPI-MCP 是將 FastAPI 應用的端點自動轉換為符合模型上下文協議(MCP)的開源工具。具有零配置的特點,只需簡單指向 FastAPI 應用可自動發現并轉換所有端...
閱讀原文

MAI-DS-R1

MAI-DS-R1 是微軟基于 DeepSeek R1 改進的AI模型。MAI-DS-R1基于后訓練優化,支持響應 99.3% 的敏感話題提示,比原版提升 2 倍,將有害內容風險降低 50%。MAI...
閱讀原文
1910111213117