AI項目和框架

ImagePulse

ImagePulse (圖律脈動)是魔搭社區推出的開源項目,為下一代圖像理解和生成模型提供數據集支持,通過原子化模型的能力并構建原子能力數據集。項目包含多個原...
閱讀原文

SimpleAR

SimpleAR 是復旦大學視覺與學習實驗室和字節 Seed 團隊聯合推出的純自回歸圖像生成模型。采用簡潔的自回歸架構,通過優化訓練和推理過程,實現了高質量的圖像...
閱讀原文

Aether

Aether 是上海AI Lab開源的生成式世界模型,完全基于合成數據訓練。Aether 首次將三維時空建模與生成式建模深度融合,具備 4D 動態重建、動作條件視頻預測和...
閱讀原文

Gemma 3 QAT

Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代開源模型,是Gemma 3 的量化優化版本。通過量化感知訓練技術,Gemma 3 QAT 在顯著降低內存...
閱讀原文

OpenUtau

OpenUtau 是開源的歌聲合成工具,兼容 UTAU 音源庫和重采樣器,支持 VSQX 導入、多語言界面及預渲染功能,幫助創作者快速預覽作品節省時間。OpenUtau現代化的...

SkyReels-V2

SkyReels-V2是昆侖萬維SkyReels團隊推出的無限時長電影生成模型,基于擴散強迫(Diffusion-forcing)框架,結合多模態大語言模型(MLLM)、多階段預訓練、強...
閱讀原文

GigaTok

GigaTok 是用于自回歸圖像生成的視覺分詞器,參數量達 30 億。通過語義正則化技術,將分詞器特征與預訓練視覺編碼器(如 DINOv2)的語義特征對齊,有效約束潛...
閱讀原文

HumanRig

HumanRig 是阿里巴巴團隊開發的 3D 人形角色自動綁定研究項目。解決現有綁定技術因缺乏高質量數據集而發展受限的問題,通過提供大規模、高質量的數據集和創新...
閱讀原文

MineWorld

MineWorld是微軟研究院開源的基于《我的世界》(Minecraft)的實時交互式世界模型,基于視覺-動作自回歸Transformer架構,將游戲場景和動作轉化為離散的token...
閱讀原文

FastAPI-MCP

FastAPI-MCP 是將 FastAPI 應用的端點自動轉換為符合模型上下文協議(MCP)的開源工具。具有零配置的特點,只需簡單指向 FastAPI 應用可自動發現并轉換所有端...
閱讀原文

MAI-DS-R1

MAI-DS-R1 是微軟基于 DeepSeek R1 改進的AI模型。MAI-DS-R1基于后訓練優化,支持響應 99.3% 的敏感話題提示,比原版提升 2 倍,將有害內容風險降低 50%。MAI...
閱讀原文

萬相首尾幀模型

萬相首尾幀模型(Wan2.1-FLF2V-14B)是開源的14B參數規模的首尾幀生視頻模型。模型根據用戶提供的首幀和尾幀圖像,自動生成流暢的高清視頻過渡效果,支持多種...
閱讀原文

GoodWeBot

GoodWeBot 是開源的基于 RPA 技術開發的 AI 微信機器人, 支持一鍵免安裝運行,用戶下載后即可直接使用。工具已接入 Coze 等主流 AI,能實現智能回復、私聊群...
閱讀原文

豆包1.5·UI-TARS

豆包1.5·UI-TARS是字節豆包推出的面向圖形界面交互(GUI)的Agent模型。模型基于感知、推理和動作執行等類人能力,與圖形界面進行連續、流暢的交互。模型將視...
閱讀原文

Codex CLI

Codex CLI 是 OpenAI 推出的輕量級終端運行編碼智能體。Codex CLI基于自然語言指令幫助開發者高效生成代碼、執行文件操作和進行版本控制。Codex CLI 支持代碼...
閱讀原文
13839404142146