AI項目和框架

GitMCP

GitMCP 是開源的遠(yuǎn)程 Model Context Protocol (MCP) 服務(wù)器,能將 GitHub 倉庫(包括代碼庫和 GitHub 頁面)轉(zhuǎn)變?yōu)閷崟r文檔中心,讓 AI 工具(如 Cursor)直...
閱讀原文

NeuralAgent

NeuralAgent 是開源的桌面 AI 個人助手,通過自然語言指令自動化執(zhí)行多種復(fù)雜任務(wù),如模擬鍵盤輸入、鼠標(biāo)點擊、瀏覽器導(dǎo)航、表單填寫和郵件發(fā)送等。NeuralAge...
閱讀原文

self-llm

self-llm (開源大模型食用指南)是Datawhale專為國內(nèi)初學(xué)者打造的開源大模型教程,基于Linux平臺,提供從環(huán)境配置到模型部署、微調(diào)的全流程指導(dǎo),涵蓋LLaMA...
閱讀原文

GPT-5

GPT-5 是 OpenAI 最新推出的人工智能模型,是目前最強模型,面向所有用戶開放。GPT-5是一個統(tǒng)一系統(tǒng),包括一個基礎(chǔ)模型用在解答常見問題,一個深度推理模型(...
閱讀原文

Qwen-Flash

Qwen-Flash是阿里通義千問推出的Qwen3系列Flash模型,版本號為qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知識處理及Agent能力上均有顯著提升...
閱讀原文

Speech 2.5

Speech 2.5 是 MiniMax 推出的新一代語音生成模型,在多語種表現(xiàn)力、音色復(fù)刻和語言覆蓋范圍上實現(xiàn)重大突破。模型支持40種語言,能精準(zhǔn)還原不同語言和口音的...
閱讀原文

dots.vlm1

dots.vlm1 是小紅書 hi lab 開源的首個多模態(tài)大模型。基于一個從零訓(xùn)練的 12 億參數(shù)視覺編碼器 NaViT 和 DeepSeek V3 大語言模型(LLM),具備強大的視覺感知...
閱讀原文

gpt-oss

GPT-OSS 是 OpenAI 推出的開源推理模型系列,包含 gpt-oss-120b 和 gpt-oss-20b 兩個版本。gpt-oss-120b 擁有1170億參數(shù),激活參數(shù)約51億,能在單張 80GB GPU...
閱讀原文

Genie 3

Genie 3是谷歌DeepMind推出的新一代通用世界模型,能實時生成高度動態(tài)且連貫的虛擬世界。模型具備模擬物理現(xiàn)象、自然生態(tài)系統(tǒng)、奇幻場景和歷史場景的能力,支...
閱讀原文

Claude Opus 4.1

Claude Opus 4.1 是 Anthropic 公司最新推出的大型語言模型,是 Claude Opus 4 的升級版本。模型在多個方面進行優(yōu)化和提升,包括推理質(zhì)量、指令遵循能力及整...
閱讀原文

Chunkr

Chunkr 是 Lumina AI 推出的開源文檔處理 API,專為 RAG(檢索增強生成)和知識庫場景設(shè)計。Chunkr 能將復(fù)雜文檔(如 PDF、PPT、Word、圖片等)轉(zhuǎn)換為結(jié)構(gòu)化...
閱讀原文

AudioGen-Omni

AudioGen-Omni是快手推出的多模態(tài)音頻生成框架,框架能基于視頻、文本等輸入生成高質(zhì)量的音頻、語音和歌曲。框架通過統(tǒng)一的歌詞-文本編碼器和相位對齊各向異...
閱讀原文

LangExtract

LangExtract 是谷歌開源的用在從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息的 Python 庫。LangExtract 用大型語言模型(LLM),自動處理臨床筆記、報告等材料,識別并組織...
閱讀原文

Qwen-Image

Qwen-Image 是阿里通義千問團隊開源的 20B 參數(shù)MMDiT模型,是通義千問系列中首個圖像生成基礎(chǔ)模型,模型在復(fù)雜文本渲染和精確圖像編輯方面表現(xiàn)出色,支持多行...
閱讀原文

MiDashengLM

MiDashengLM是小米開源的高效聲音理解大模型,具體參數(shù)版本為MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音頻編碼器和 Qwen2.5-Omni-7B Thinker 解碼器構(gòu)建,...
閱讀原文
11920212223155