AI項(xiàng)目和框架

Lumina-DiMOO

Lumina-DiMOO是上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)開(kāi)源的新一代多模態(tài)生成與理解模型。模型采用全離散擴(kuò)散架構(gòu),統(tǒng)一處理文本、圖像等多模態(tài)數(shù)據(jù),支持文本到圖像生成...
閱讀原文

UnifoLM-WMA-0

UnifoLM-WMA-0 是宇樹(shù)科技開(kāi)源的跨多類機(jī)器人本體的世界模型 - 動(dòng)作架構(gòu),專為通用機(jī)器人學(xué)習(xí)設(shè)計(jì)。核心是世界模型,能理解機(jī)器人與環(huán)境的物理交互,具備仿真...
閱讀原文

GPT-5-Codex

GPT-5-Codex 是 OpenAI 推出的專為編程優(yōu)化的模型,基于 GPT-5 進(jìn)一步強(qiáng)化。模型聚焦于真實(shí)世界的軟件工程任務(wù),如從零搭建項(xiàng)目、代碼重構(gòu)、調(diào)試、測(cè)試和代碼...
閱讀原文

ROMA

ROMA(Recursive Open Meta-Agent) 是Sentient AGI團(tuán)隊(duì)開(kāi)源的多Agent系統(tǒng)框架,通過(guò)遞歸層次結(jié)構(gòu)將復(fù)雜任務(wù)拆解為可并行的子任務(wù),由父節(jié)點(diǎn)分配給子節(jié)點(diǎn)執(zhí)行...
閱讀原文

Grok 4 Fast

Grok 4 Fast是xAI推出的快速版人工智能模型,最大的特點(diǎn)是響應(yīng)速度快,最高可達(dá)標(biāo)準(zhǔn)版的10倍,生成速度每秒75個(gè)token,能快速完成簡(jiǎn)單查詢、基礎(chǔ)代碼生成等任...
閱讀原文

Mini-o3

Mini-o3 是字節(jié)跳動(dòng)和香港大學(xué)聯(lián)合推出的開(kāi)源模型,專為解決復(fù)雜的視覺(jué)搜索問(wèn)題而設(shè)計(jì)。模型通過(guò)強(qiáng)化學(xué)習(xí)和基于圖像的工具,能執(zhí)行深度多輪推理,推理輪次可...
閱讀原文

ERNIE-4.5-21B-A3B-Thinking

ERNIE-4.5-21B-A3B-Thinking 是百度推出的專注于推理任務(wù)的大型語(yǔ)言模型。采用混合專家(MoE)架構(gòu),總參數(shù)量達(dá)210億,每個(gè)token激活30億參數(shù),支持128K的長(zhǎng)...
閱讀原文

FunAudio-ASR

FunAudio-ASR 是阿里巴巴達(dá)摩院推出的端到端語(yǔ)音識(shí)別大模型,專為解決企業(yè)落地中的關(guān)鍵問(wèn)題設(shè)計(jì)。通過(guò)創(chuàng)新的 Context 增強(qiáng)模塊,有效優(yōu)化了“幻覺(jué)”和“串語(yǔ)種”...
閱讀原文

ZipVoice

ZipVoice 是小米集團(tuán) AI 實(shí)驗(yàn)室發(fā)布的高效零樣本語(yǔ)音合成(TTS)模型。模型基于 Flow Matching 架構(gòu),包含 ZipVoice(單說(shuō)話人)和 ZipVoice-Dialog(對(duì)話語(yǔ)...
閱讀原文

PP-OCRv5

PP-OCRv5 是百度推出的高效、精準(zhǔn)的文字識(shí)別模型。模型基于兩階段處理流程,專門用在快速、準(zhǔn)確地檢測(cè)和識(shí)別圖像中的文字。
閱讀原文

Stable Audio 2.5

Stable Audio 2.5 是 Stability AI 推出的最新音頻生成模型,專為企業(yè)級(jí)聲音制作設(shè)計(jì)。模型具備快速生成(三分鐘音頻僅需兩秒)、動(dòng)態(tài)音樂(lè)創(chuàng)作和音頻修復(fù)功能。
閱讀原文

Live Interpreter API

Live Interpreter API 是 Azure 語(yǔ)音翻譯的新功能,能實(shí)現(xiàn)實(shí)時(shí)的多語(yǔ)言語(yǔ)音翻譯。無(wú)需用戶手動(dòng)設(shè)置輸入語(yǔ)言, Live Interpreter API 能自動(dòng)連續(xù)識(shí)別正在使用...
閱讀原文

veCLI

veCLI 是字節(jié)跳動(dòng)火山引擎推出的命令行 AI 工具,提升開(kāi)發(fā)效率。無(wú)縫集成豆包大模型 1.6 等多種模型,開(kāi)發(fā)者可通過(guò)自然語(yǔ)言交互,快速生成代碼并完成本地部署...
閱讀原文

MobileLLM-R1

MobileLLM-R1是Meta推出的一系列專為數(shù)學(xué)、編程和科學(xué)推理設(shè)計(jì)的高效推理模型。系列包含基礎(chǔ)模型和最終模型,分別有1.4億、3.6億和9.5億參數(shù)版本。模型并非通...
閱讀原文

AgentCLUE-ICabin

AgentCLUE-ICabin 是專注于汽車智能座艙場(chǎng)景的 AI 智能體測(cè)評(píng)基準(zhǔn),全面評(píng)估大語(yǔ)言模型在智能座艙中的工具調(diào)用能力。基準(zhǔn)基于12大常見(jiàn)用車場(chǎng)景構(gòu)建,覆蓋從日...
閱讀原文