AI項目和框架

WorldMem

WorldMem 是南洋理工大學、北京大學和上海 AI Lab 推出的創新 AI 世界生成模型。模型基于引入記憶機制,解決傳統世界生成模型在長時序下缺乏一致性的關鍵問題...
閱讀原文

GPDiT

GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大學、清華大學、StepFun公司及中國科學技術大學推出的新型視頻生成模型,模型...
閱讀原文

Skywork-VL Reward

Skywork-VL Reward是Skywork AI開源的多模態獎勵模型,能為多模態理解和推理任務提供可靠的獎勵信號。模型基于Qwen2.5-VL-7B-Instruct架構,基于添加獎勵頭結...
閱讀原文

ChatUI

ChatUI 是阿里團隊推出的開源智能對話式 UI 組件庫,能幫助開發者快速構建高質量的聊天應用,提供響應式設計、國際化、主題定制等功能。ChatUI 基于阿里巴巴 ...
閱讀原文

AG-UI

AG-UI(Agent-User Interaction Protocol)是開源的、輕量級的、基于事件的協議,支持標準化AI Agent 與前端應用之間的交互。AG-UI定義16種標準事件類型,支...
閱讀原文

Minion Agent

Minion Agent是Agent框架,支持瀏覽器操作、MCP、自動規劃和深度研究等功能。Minion Agent支持多種模型,基于靈活的配置選項滿足不同需求。
閱讀原文

OpenVision

OpenVision是加州大學圣克魯茲分校(UCSC)推出的完全開放、高效且靈活的高級視覺編碼器家族,專注于多模態學習。提供從5.9M到632.1M參數的多種規模模型,適...
閱讀原文

FLUX-Text

FLUX-Text 是阿里推出的新型的多語言場景文本編輯框架,基于擴散模型(Diffusion Model)和輕量級字形嵌入模塊。框架基于注入字形條件信息,提升復雜場景下文...
閱讀原文

MCA-Ctrl

MCA-Ctrl(Multi-party Collaborative Attention Control)是中科院計算所和中國科學院大學的推出的圖像定制生成框架,基于文本和復雜視覺條件實現高質量的圖...
閱讀原文

AgentCPM-GUI

AgentCPM-GUI 是清華大學和面壁智能團隊聯合推出的開源端側 GUI Agent ,針對中文應用優化。模型基于 MiniCPM-V(80 億參數)構建,能接受智能手機截圖作為輸...
閱讀原文

Nexus-Gen

Nexus-Gen 是魔搭團隊、華東師范大學等機構推出的開源全能圖像生成模型,支持同時完成圖像理解、生成和編輯任務。Nexus-Gen融合強大的語言模型與擴散模型的能...
閱讀原文

StreamBridge

StreamBridge 是蘋果公司與復旦大學聯合推出的端側視頻大語言模型(Video-LLMs)框架,能幫助 AI 實時理解直播流視頻。框架基于內存緩沖區和輪次衰減壓縮策略...
閱讀原文

Step1X-3D

Step1X-3D 是StepFun聯合LightIllusions推出的高保真、可控的 3D 資產生成框架。基于嚴格的數據整理流程,從超過 500 萬個 3D 資產中篩選出 200 萬個高質量數...
閱讀原文

Seedance 1.0 lite

Seedance 1.0 lite是火山引擎推出的豆包視頻生成模型的小參數量版本,支持文生視頻和圖生視頻兩種生成方式,支持生成5秒或10秒、480p或720p分辨率的視頻。
閱讀原文

MCPHub

MCPHub是一站式MCP(模型上下文協議)服務器聚合平臺。支持將多個MCP服務器整合到不同的流式HTTP(SSE)端點,基于直觀的Web界面和強大的協議處理能力,簡化A...
閱讀原文
12345117