AI項目和框架

Jaaz

Jaaz 是開源的 AI 設計工具,是 Lovart 的本地免費替代品。具備強大的 AI 設計能力,能智能生成設計提示,批量生成圖像、海報、故事板等。Jaaz 支持 Ollama、...
閱讀原文

VRAG-RL

VRAG-RL是阿里巴巴通義大模型團隊推出的視覺感知驅動的多模態RAG推理框架,專注于提升視覺語言模型(VLMs)在處理視覺豐富信息時的檢索、推理和理解能力。基...
閱讀原文

TrackVLA

TrackVLA是銀河通用推出的產品級端到端導航大模型。模型具備純視覺環境感知、語言指令驅動、自主推理和零樣本泛化能力,能實現從視覺感知到動作輸出的全鏈路...
閱讀原文

TEN VAD

TEN VAD 是高性能的實時語音活動檢測系統,專為企業級應用設計。TEN VAD能精確地檢測音頻流中的語音活動,具有低延遲、輕量級和高精度的特點。TEN VAD 基于先...
閱讀原文

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的實驗性應用,支持讓用戶在本地設備上體驗和使用機器學習(ML)及生成式人工智能(GenAI)模型。應用目前支持在 Android...
閱讀原文

從容大模型

從容大模型是云從科技推出的多模態AI模型。模型在國際權威評測平臺OpenCompass的多模態榜單中以80.7分登頂,超越谷歌、OpenAI等頂尖團隊。
閱讀原文

DeepEyes

DeepEyes 是小紅書團隊和西安交通大學聯合推出的多模態深度思考模型。基于端到端強化學習,實現類似 OpenAI o3 的“用圖思考”能力,無需依賴監督微調(SFT)。...
閱讀原文

Circuit Tracer

Circuit Tracer 是 Anthropic 推出的開源工具,用在研究大型語言模型的內部工作機制。Circuit Tracer 基于生成歸因圖(attribution graphs)揭示模型在生成特...
閱讀原文

DGM

DGM(Darwin G?del Machine)是自改進人工智能系統,通過迭代修改自身代碼來提升性能。DGM從其維護的編碼代理檔案中選擇一個代理,基于基礎模型生成新版本,...
閱讀原文

SignGemma

SignGemma 是谷歌 DeepMind 團隊推出的全球最強大的手語翻譯AI模型。專注于將美國手語(ASL)翻譯成英語文本,通過多模態訓練方法,結合視覺數據和文本數據,...
閱讀原文

FLUX.1 Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的圖像生成與編輯模型,支持上下文感知的圖像處理。模型基于文本和圖像提示進行生成與編輯,支持對象修改、風格...
閱讀原文

EVI 3

EVI 3是Hume AI推出的全新語音語言模型,模型能同時處理文本和語音標記,實現自然、富有表現力的語音交互。模型支持高度個性化,根據用戶提示生成任何聲音和...
閱讀原文

OmniSync

OmniSync是中國人民大學、快手科技和清華大學聯合推出的通用對口型框架,基于擴散變換器(Diffusion Transformers)實現視頻中人物口型與語音的精準同步。Omn...
閱讀原文

Mobvoi MCP Server

Mobvoi MCP Server 是出門問問推出的一站式集成各項 AI 能力的工具,Mobvoi MCP Server集成語音生成、聲音克隆、圖片驅動數字人、視頻配音等多項多模態 AI 能...
閱讀原文

FLUX.1Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的圖像生成與編輯模型,支持上下文感知的圖像處理。模型基于文本和圖像提示進行生成與編輯,支持對象修改、風格...
閱讀原文
12324252627146