AI項目和框架

混元圖像2.1

混元圖像2.1(HunyuanImage 2.1)是騰訊推出的開源文生圖模型,支持原生2K分辨率,具備強大的復雜語義理解能力,能精準生成場景細節(jié)、人物表情和動作。
閱讀原文

REFRAG

REFRAG是Meta超級智能實驗室推出的針對檢索增強生成(RAG)任務的高效解碼框架,通過“壓縮(Compress)、感知(Sense)、擴展(Expand)”的流程優(yōu)化大型語言...
閱讀原文

XTuner V1

XTuner V1 是上海人工智能實驗室開源的新一代大模型訓練引擎,基于 PyTorch FSDP 開發(fā),針對超大模型訓練中的顯存、通信和負載問題進行系統(tǒng)性優(yōu)化,支持 1T ...
閱讀原文

Qwen3-ASR-Flash

Qwen3-ASR-Flash 是通義千問系列最新語音識別模型,基于 Qwen3 基座模型,經(jīng)海量多模態(tài)及 ASR 數(shù)據(jù)訓練而成。模型支持 11 種語言和多種口音,具備高精度、高...
閱讀原文

AntSK FileChunk

AntSK FileChunk是基于語義理解的智能文本切片工具,專門用在處理PDF和Word文檔。工具基于先進的語義分析技術,將長文檔分割成語義完整且連貫的片段,避免傳...
閱讀原文

AI Video Transcriber

AI Video Transcriber 是開源的視頻轉錄與總結工具,支持YouTube、TikTok等30多個平臺。工具用Faster-Whisper進行高精度語音轉文字,通過AI優(yōu)化文本,糾正拼...
閱讀原文

DeepDoc

DeepDoc 是開源的深度研究工具,專注于對本地知識庫進行深度研究。工具通過研究式工作流,提取本地資源(如 PDF、DOCX、JPG、TXT 等)中的文本,分割存儲在向...
閱讀原文

Visual Story-Writing

Visual Story-Writing是創(chuàng)新的AI寫作工具,通過可視化界面幫助用戶構建和編輯故事。工具用GPT-4o技術自動解析文本,能轉換成事件、角色和動作的可視化結構,...
閱讀原文

MiniCPM 4.1

MiniCPM 4.1 是面壁智能推出的混合思考模型。采用 InfLLM v2 稀疏注意力架構,每個詞元僅需計算與少于 5% 詞元的相關性,顯著降低長文本處理開銷。在 128K 長...
閱讀原文

Parlant

Parlant是開源的LLM(大型語言模型)代理行為建模引擎,幫助開發(fā)者快速創(chuàng)建符合業(yè)務要求的對話式代理。通過自然語言規(guī)則定義來確保AI代理的行為符合業(yè)務邏輯...
閱讀原文

rStar2-Agent

rStar2-Agent是微軟開源的僅140億參數(shù)的數(shù)學推理模型。模型用智能體強化學習方法訓練,在AIME24數(shù)學推理測試中準確率高達80.6%,超越6710億參數(shù)的DeepSeek-R1。
閱讀原文

Qwen3-Max-Preview

Qwen3-Max-Preview 是阿里巴巴旗下通義千問團隊發(fā)布的最新旗艦大語言模型。是 Qwen3 系列中參數(shù)量最大的模型,參數(shù)規(guī)模超過 1 萬億。模型在推理、指令跟隨、...
閱讀原文

Claudable

Claudable是基于Next.js的開源Web應用構建器,結合了Claude Code和Cursor CLI的先進AI代理能力,以及Lovable簡單直觀的應用構建體驗。用戶只需用自然語言描述...
閱讀原文

FineVision

FineVision 是 Hugging Face 推出的開源視覺語言數(shù)據(jù)集,訓練先進的視覺語言模型。包含 1730 萬張圖像、2430 萬個樣本、8890 萬輪對話和 95 億個答案標記。數(shù)...
閱讀原文

EmbeddingGemma

EmbeddingGemma是谷歌開源的多語言文本嵌入模型,專為端側AI設計,支持在筆記本、手機等設備上部署。模型擁有3.08億參數(shù),基于Gemma 3架構打造,支持100多種...
閱讀原文
145678145