AI項(xiàng)目和框架
Lumina-DiMOO
Lumina-DiMOO是上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)開(kāi)源的新一代多模態(tài)生成與理解模型。模型采用全離散擴(kuò)散架構(gòu),統(tǒng)一處理文本、圖像等多模態(tài)數(shù)據(jù),支持文本到圖像生成...
UnifoLM-WMA-0
UnifoLM-WMA-0 是宇樹(shù)科技開(kāi)源的跨多類機(jī)器人本體的世界模型 - 動(dòng)作架構(gòu),專為通用機(jī)器人學(xué)習(xí)設(shè)計(jì)。核心是世界模型,能理解機(jī)器人與環(huán)境的物理交互,具備仿真...
GPT-5-Codex
GPT-5-Codex 是 OpenAI 推出的專為編程優(yōu)化的模型,基于 GPT-5 進(jìn)一步強(qiáng)化。模型聚焦于真實(shí)世界的軟件工程任務(wù),如從零搭建項(xiàng)目、代碼重構(gòu)、調(diào)試、測(cè)試和代碼...
Grok 4 Fast
Grok 4 Fast是xAI推出的快速版人工智能模型,最大的特點(diǎn)是響應(yīng)速度快,最高可達(dá)標(biāo)準(zhǔn)版的10倍,生成速度每秒75個(gè)token,能快速完成簡(jiǎn)單查詢、基礎(chǔ)代碼生成等任...
ERNIE-4.5-21B-A3B-Thinking
ERNIE-4.5-21B-A3B-Thinking 是百度推出的專注于推理任務(wù)的大型語(yǔ)言模型。采用混合專家(MoE)架構(gòu),總參數(shù)量達(dá)210億,每個(gè)token激活30億參數(shù),支持128K的長(zhǎng)...
FunAudio-ASR
FunAudio-ASR 是阿里巴巴達(dá)摩院推出的端到端語(yǔ)音識(shí)別大模型,專為解決企業(yè)落地中的關(guān)鍵問(wèn)題設(shè)計(jì)。通過(guò)創(chuàng)新的 Context 增強(qiáng)模塊,有效優(yōu)化了“幻覺(jué)”和“串語(yǔ)種”...
Stable Audio 2.5
Stable Audio 2.5 是 Stability AI 推出的最新音頻生成模型,專為企業(yè)級(jí)聲音制作設(shè)計(jì)。模型具備快速生成(三分鐘音頻僅需兩秒)、動(dòng)態(tài)音樂(lè)創(chuàng)作和音頻修復(fù)功能。
Live Interpreter API
Live Interpreter API 是 Azure 語(yǔ)音翻譯的新功能,能實(shí)現(xiàn)實(shí)時(shí)的多語(yǔ)言語(yǔ)音翻譯。無(wú)需用戶手動(dòng)設(shè)置輸入語(yǔ)言, Live Interpreter API 能自動(dòng)連續(xù)識(shí)別正在使用...
MobileLLM-R1
MobileLLM-R1是Meta推出的一系列專為數(shù)學(xué)、編程和科學(xué)推理設(shè)計(jì)的高效推理模型。系列包含基礎(chǔ)模型和最終模型,分別有1.4億、3.6億和9.5億參數(shù)版本。模型并非通...
AgentCLUE-ICabin
AgentCLUE-ICabin 是專注于汽車智能座艙場(chǎng)景的 AI 智能體測(cè)評(píng)基準(zhǔn),全面評(píng)估大語(yǔ)言模型在智能座艙中的工具調(diào)用能力。基準(zhǔn)基于12大常見(jiàn)用車場(chǎng)景構(gòu)建,覆蓋從日...