AI項目和框架

MedGemma

MedGemma是谷歌推出的開源AI模型,專門用在醫療圖像與文本分析。模型基于Gemma 3架構,包含4B參數的多模態模型和27B參數的純文本模型。4B模型擅長解讀醫療圖...
閱讀原文

BAGEL

BAGEL是字節跳動開源的多模態基礎模型,擁有140億參數,其中70億為活躍參數。采用混合變換器專家架構(MoT),通過兩個獨立編碼器分別捕捉圖像的像素級和語義...
閱讀原文

Gemma 3n

Gemma 3n 是谷歌 I/O 開發者大會推出的端側多模態 AI 模型。基于 Gemini Nano 架構,采用逐層嵌入技術,將內存占用壓縮至 2-4B 參數模型水平。模型參數量分別...
閱讀原文

News Agents

News Agents基于終端的新聞聚合與摘要系統。基于Amazon Q CLI作為 Agent 框架,用Model Context Protocol (MCP)解析RSS新聞源,借助tmux實現終端分割和多任...
閱讀原文

Imagen 4

Imagen 4是谷歌發布的最新圖像生成AI模型。支持高達2K分辨率的圖像生成,細節呈現逼真,可清晰呈現復雜織物紋理、水滴折射及動物毛發質感等。在文本渲染方面...
閱讀原文

Pixel3DMM

Pixel3DMM是慕尼黑工業大學、倫敦大學學院和Synthesia聯合推出的單圖像3D人臉重建框架。框架基于DINO基礎模型,引入專門的預測頭,從單張RGB圖像中準確重建出...
閱讀原文

AutoBE

AutoBE 是 AI 驅動的后端服務器代碼生成工具,通過用戶描述需求自動生成高質量的后端代碼。基于 TypeScript、NestJS、Prisma 和 Postgres 等技術棧構建,強調...
閱讀原文

Index-AniSora

Index-AniSora 是嗶哩嗶哩開源的先進動漫視頻生成模型,模型支持一鍵生成多種動漫風格的視頻,涵蓋番劇片段、國創動畫、VTuber 內容等。模型包含超過 1000 萬...
閱讀原文

Veo 3

Veo 3是谷歌I/O開發者大會上發布的新一代視頻生成模型。Veo 3是谷歌首個可生成視頻背景音效的模型,能合成畫面,能為鳥鳴、街頭交通等場景配上相應的音效,可...
閱讀原文

豆包·語音播客模型

豆包·語音播客模型是字節跳動旗下火山引擎推出的語音播客模型。模型基于流式模型構建,可將文本秒級轉化為雙人對話式播客,具有低成本、高時效、強互動特點。...
閱讀原文

II-Agent

II-Agent 是開源的Agent框架,通過與大型語言模型(LLM)的交互,簡化和提升跨多個領域的工作流程。具備多種核心功能,包括研究與事實核查、內容生成、數據分...
閱讀原文

NLWeb

NLWeb 是微軟推出的開源項目,基于簡化網站自然語言界面的創建,讓任何網站都能變成 AI 驅動的應用程序。NLWeb用 Schema.org、RSS 等半結構化數據,結合 LLM ...
閱讀原文

EvoAgentX

EvoAgentX 是開源的 AI Agent 自進化框架,通過進化算法實現多 Agent 系統的自動化生成與優化。能根據目標描述自動生成工作流,通過迭代優化提升性能。
閱讀原文

ScaleMCP

ScaleMCP是普華永道推出的工具選擇方法,動態的為大型語言模型(LLM)Agents 配備Model Context Protocol(MCP)工具。基于自動同步工具存儲系統與MCP服務器...
閱讀原文

Agent Squad

Agent Squad 是輕量級、開源的多 Agents 框架,用在協調多個 AI Agents 處理復雜對話。Agent Squad支持 Python 和 TypeScript 兩種語言,根據用戶輸入動態路...
閱讀原文
12728293031146