AI項目和框架
Qwen3-ASR-Flash
Qwen3-ASR-Flash 是通義千問系列最新語音識別模型,基于 Qwen3 基座模型,經(jīng)海量多模態(tài)及 ASR 數(shù)據(jù)訓練而成。模型支持 11 種語言和多種口音,具備高精度、高...
AntSK FileChunk
AntSK FileChunk是基于語義理解的智能文本切片工具,專門用在處理PDF和Word文檔。工具基于先進的語義分析技術,將長文檔分割成語義完整且連貫的片段,避免傳...
AI Video Transcriber
AI Video Transcriber 是開源的視頻轉錄與總結工具,支持YouTube、TikTok等30多個平臺。工具用Faster-Whisper進行高精度語音轉文字,通過AI優(yōu)化文本,糾正拼...
Visual Story-Writing
Visual Story-Writing是創(chuàng)新的AI寫作工具,通過可視化界面幫助用戶構建和編輯故事。工具用GPT-4o技術自動解析文本,能轉換成事件、角色和動作的可視化結構,...
MiniCPM 4.1
MiniCPM 4.1 是面壁智能推出的混合思考模型。采用 InfLLM v2 稀疏注意力架構,每個詞元僅需計算與少于 5% 詞元的相關性,顯著降低長文本處理開銷。在 128K 長...
rStar2-Agent
rStar2-Agent是微軟開源的僅140億參數(shù)的數(shù)學推理模型。模型用智能體強化學習方法訓練,在AIME24數(shù)學推理測試中準確率高達80.6%,超越6710億參數(shù)的DeepSeek-R1。
Qwen3-Max-Preview
Qwen3-Max-Preview 是阿里巴巴旗下通義千問團隊發(fā)布的最新旗艦大語言模型。是 Qwen3 系列中參數(shù)量最大的模型,參數(shù)規(guī)模超過 1 萬億。模型在推理、指令跟隨、...
FineVision
FineVision 是 Hugging Face 推出的開源視覺語言數(shù)據(jù)集,訓練先進的視覺語言模型。包含 1730 萬張圖像、2430 萬個樣本、8890 萬輪對話和 95 億個答案標記。數(shù)...
EmbeddingGemma
EmbeddingGemma是谷歌開源的多語言文本嵌入模型,專為端側AI設計,支持在筆記本、手機等設備上部署。模型擁有3.08億參數(shù),基于Gemma 3架構打造,支持100多種...