AI項目和框架

龍貓LongCat

LongCat(龍貓)是美團自主研發(fā)的生成式AI大模型,通過人工智能技術(shù)提升公司內(nèi)部工作效率和創(chuàng)新能力。模型具備強大的多模態(tài)能力,能處理文本、圖像等多種數(shù)據(jù)...
閱讀原文

MoshiVis

MoshiVis 是 Kyutai 推出的開源多模態(tài)語音模型,基于 Moshi 實時對話語音模型開發(fā),增加了視覺輸入功能。能實現(xiàn)圖像的自然、實時語音交互,將語音和視覺信息...

DeepMesh

DeepMesh 是清華大學(xué)和南洋理工大學(xué)研究人員提出的 3D 網(wǎng)格生成框架,基于強化學(xué)習(xí)和自回歸變換器生成高質(zhì)量的 3D 網(wǎng)格。通過兩項關(guān)鍵創(chuàng)新來優(yōu)化網(wǎng)格生成:一...
閱讀原文

BlockDance

BlockDance 是復(fù)旦大學(xué)聯(lián)合字節(jié)跳動智能創(chuàng)作團隊推出的用在加速擴散模型的新方法。BlockDance 基于識別重用相鄰時間步中結(jié)構(gòu)相似的時空特征(STSS),減少冗...
閱讀原文

Reve Image

Reve Image 是 Reve 推出的全新 AI 圖像生成模型。專注于提升美學(xué)表現(xiàn)、精確的提示遵循能力以及出色的排版設(shè)計,能生成高質(zhì)量的視覺作品。模型在生成圖像時展...
閱讀原文

RuoYi AI

RuoYi AI 是全棧式 AI 開發(fā)平臺,提供完整的前端、后臺管理及小程序應(yīng)用,支持靈活修改和分發(fā)代碼。RuoYi AI 支持本地 RAG 方案,集成 Milvus/Weaviate 等向...
閱讀原文

食神

食神是老板電器推出的首個烹飪垂直領(lǐng)域大模型?;诶习咫娖?6年積累的海量烹飪數(shù)據(jù),結(jié)合DeepSeek技術(shù),能精準(zhǔn)理解烹飪場景需求。用戶可通過語音、文字等方...
閱讀原文

Soundwave

Soundwave是香港中文大學(xué)(深圳)開源的語音理解大模型,專注于語音與文本的智能對齊和理解。通過創(chuàng)新的對齊適配器和壓縮適配器技術(shù),有效解決了語音和文本在...
閱讀原文

Motia

Motia 是專為軟件工程師設(shè)計的 AI Agent 框架,簡化 AI 智能體的開發(fā)、測試和部署過程。支持多種編程語言,如 Python、TypeScript 和 Ruby,開發(fā)者可以使用熟...
閱讀原文

LongCat

LongCat(龍貓)是美團自主研發(fā)的生成式大語言模型,通過人工智能技術(shù)提升公司內(nèi)部工作效率和創(chuàng)新能力。模型具備強大的多模態(tài)能力,能處理文本、圖像等多種數(shù)...

SpatialLM

SpatialLM 是群核科技開源的空間理解多模態(tài)模型,賦予機器人和智能系統(tǒng)類似人類的空間認(rèn)知能力。通過分析普通手機拍攝的視頻,能重建出詳細(xì)的 3D 場景布局,...
閱讀原文

Multi-Agent Orchestrator

Multi-Agent Orchestrator 是用于管理和協(xié)調(diào)多個智能代理(Agent)的框架。通過分類器識別用戶輸入的意圖,將請求分配給最適合的代理進行處理,通過對話存儲...

gpt-4o-mini-transcribe

gpt-4o-mini-transcribe 是 OpenAI 推出的語音轉(zhuǎn)文本模型,gpt-4o-transcribe的精簡版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架構(gòu),用知識蒸餾技術(shù)從大...
閱讀原文

福棠·百川

福棠·百川是是國家兒童醫(yī)學(xué)中心、首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院聯(lián)合百川智能、小兒方健康共同發(fā)布的全球首個兒科大模型。覆蓋了兒童常見病及疑難病癥的立體化...
閱讀原文

gpt-4o-transcribe

gpt-4o-transcribe是 OpenAI 推出的高性能語音轉(zhuǎn)文本模型。基于最新的語音模型架構(gòu),用海量多樣化音頻數(shù)據(jù)訓(xùn)練,精準(zhǔn)捕捉語音細(xì)微差別,顯著降低單詞錯誤率(...
閱讀原文
14748495051146