AI項(xiàng)目和框架

MonkeyOCR

MonkeyOCR 是華中科技大學(xué)聯(lián)合金山辦公(Kingsoft Office)推出的文檔解析模型,模型支持高效地將非結(jié)構(gòu)化文檔內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化信息。基于精確的布局分析、內(nèi)...
閱讀原文

Playmate

Playmate是廣州趣丸科技團(tuán)隊(duì)推出的人臉動(dòng)畫(huà)生成框架。框架基于3D隱式空間引導(dǎo)擴(kuò)散模型,用雙階段訓(xùn)練框架,根據(jù)音頻和指令精準(zhǔn)控制人物的表情和頭部姿態(tài),生...
閱讀原文

dots.llm1

dots.llm1 是小紅書(shū) hi lab 開(kāi)源的中等規(guī)模 Mixture of Experts(MoE)文本大模型,具有 1420 億參數(shù),激活參數(shù)為 140 億。模型在 11.2T 高質(zhì)量 token 數(shù)據(jù)上...
閱讀原文

MiniCPM 4.0

MiniCPM 4.0 是面壁智能推出的端側(cè)大模型。模型分為 8B 和 0.5B 兩種參數(shù)規(guī)模。8B 閃電稀疏版采用創(chuàng)新稀疏架構(gòu),能高效處理長(zhǎng)文本任務(wù);0.5B 版本以低計(jì)算資...
閱讀原文

Eleven v3

Eleven v3是ElevenLabs推出的先進(jìn)文本轉(zhuǎn)語(yǔ)音模型。通過(guò)內(nèi)聯(lián)音頻標(biāo)簽實(shí)現(xiàn)情感和語(yǔ)調(diào)的精確控制,支持多說(shuō)話人對(duì)話,對(duì)話更自然。模型支持超70種語(yǔ)言,文本理解...
閱讀原文

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通義千問(wèn)團(tuán)隊(duì)發(fā)布的文本重排序模型,屬于Qwen3模型家族。采用單塔交叉編碼器架構(gòu),輸入文本對(duì)后輸出相關(guān)性得分。模型通過(guò)多階段訓(xùn)練...
閱讀原文

Qwen3 Embedding

Qwen3 Embedding 是基于 Qwen3 基礎(chǔ)模型開(kāi)發(fā)的文本表征、檢索與排序?qū)S媚P汀@^承了 Qwen3 的先進(jìn)架構(gòu),如 Grouped Query Attention、SwiGLU 激活函數(shù)等,通...
閱讀原文

DecipherIt

DecipherIt是AI驅(qū)動(dòng)的研究助手工具,基于智能化手段簡(jiǎn)化和優(yōu)化研究過(guò)程。工具支持將各種主題、鏈接和文件轉(zhuǎn)化為AI生成的研究筆記本,提供全面的總結(jié)、互動(dòng)問(wèn)...
閱讀原文

Gemini Fullstack LangGraph Quickstart

Gemini Fullstack LangGraph Quickstart 是谷歌DeepMind推出的開(kāi)源項(xiàng)目,幫助開(kāi)發(fā)者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全棧智能研究助手。
閱讀原文

MoonCast

MoonCast 是零樣本播客生成系統(tǒng),從純文本源合成自然的播客風(fēng)格語(yǔ)音。通過(guò)長(zhǎng)上下文語(yǔ)言模型和大規(guī)模語(yǔ)音數(shù)據(jù)訓(xùn)練,能生成幾分鐘長(zhǎng)的播客音頻,支持中文和英文。
閱讀原文

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本轉(zhuǎn)語(yǔ)音(TTS)模型,基于超過(guò)200萬(wàn)小時(shí)的音頻數(shù)據(jù)訓(xùn)練,支持13種語(yǔ)言。采用雙自回歸(Dual-AR)架構(gòu)和強(qiáng)化學(xué)習(xí)與人類(lèi)反饋...
閱讀原文

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音頻編輯模型,基于擴(kuò)散模型技術(shù),專(zhuān)門(mén)用在音頻的精細(xì)編輯和修復(fù)。模型將音頻編碼為離散的標(biāo)記序列,對(duì)需要修改的部分進(jìn)行掩...

Auto Think

Auto Think是快手Kwaipilot團(tuán)隊(duì)開(kāi)源的KwaiCoder-AutoThink-preview自動(dòng)思考大模型,模型針對(duì)深度思考大模型存在的“過(guò)度思考”問(wèn)題進(jìn)行了深入研究,提出了一種...
閱讀原文

Firesearch

Firesearch 是 Mendable AI 團(tuán)隊(duì)推出的 AI 驅(qū)動(dòng)的深度研究工具。基于 Firecrawl 多源網(wǎng)絡(luò)內(nèi)容提取技術(shù),結(jié)合 OpenAI GPT-4o 的搜索規(guī)劃和內(nèi)容生成能力,將復(fù)...
閱讀原文

OCode

OCode 是終端原生 AI 編程助手,為開(kāi)發(fā)者提供深度代碼庫(kù)智能和自動(dòng)任務(wù)執(zhí)行功能。與本地 Ollama 模型無(wú)縫集成,將企業(yè)級(jí) AI 輔助直接融入開(kāi)發(fā)流程中。終端原...
閱讀原文
12223242526146