AI項(xiàng)目和框架

Youtu-agent

Youtu-agent 是騰訊優(yōu)圖實(shí)驗(yàn)室推出的開源智能體框架,用在構(gòu)建、運(yùn)行和評(píng)估自主智能體。框架基于開源模型DeepSeek-V3實(shí)現(xiàn)領(lǐng)先性能,支持多種模型 API 和工具...
閱讀原文

Wan2.2-S2V

Wan2.2-S2V 是開源的多模態(tài)視頻生成模型,僅需一張靜態(tài)圖片和一段音頻,能生成電影級(jí)數(shù)字人視頻,視頻時(shí)長(zhǎng)可達(dá)分鐘級(jí),且支持多種圖片類型和畫幅。
閱讀原文

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image(代號(hào)nano banana)是谷歌 AI Studio推出的先進(jìn)圖像生成與編輯模型。模型能保持角色在不同場(chǎng)景中的一致性,支持通過自然語言進(jìn)行精準(zhǔn)...
閱讀原文

SpatialLM 1.5

SpatialLM 1.5 是群核科技推出的強(qiáng)大的空間語言模型。模型基于大語言模型訓(xùn)練,能理解自然語言指令,輸出包含空間結(jié)構(gòu)、物體關(guān)系和物理參數(shù)的空間語言。用戶...
閱讀原文

WhisperLiveKit

WhisperLiveKit 是開源的實(shí)時(shí)語音識(shí)別工具,能將語音實(shí)時(shí)轉(zhuǎn)錄為文字,支持說話人識(shí)別。工具基于先進(jìn)的技術(shù)如 SimulStreaming 和 WhisperStreaming,提供超低...
閱讀原文

XBai o4

XBai o4是開源的大語言模型,基于“反射生成形式”訓(xùn)練,結(jié)合長(zhǎng)CoT強(qiáng)化學(xué)習(xí)和過程獎(jiǎng)勵(lì)學(xué)習(xí),在復(fù)雜推理能力上表現(xiàn)出色,中等模式下已超越OpenAI-o3-mini。

VibeVoice

VibeVoice 是微軟推出的新型文本到語音(TTS)模型,能生成富有表現(xiàn)力、長(zhǎng)篇幅、多說話者的對(duì)話式音頻,如播客。
閱讀原文

EchoMimicV3

EchoMimicV3是螞蟻集團(tuán)推出的高效多模態(tài)、多任務(wù)數(shù)字人視頻生成框架。框架擁有13億參數(shù),基于任務(wù)混合和模態(tài)混合范式,結(jié)合新穎的訓(xùn)練與推理策略,實(shí)現(xiàn)快速、...
閱讀原文

SpatialGen

SpatialGen 是群核科技開源的 3D 場(chǎng)景生成模型。模型基于擴(kuò)散模型架構(gòu),支持根據(jù)文字描述、參考圖像和 3D 空間布局,生成時(shí)空一致的多視角圖像,且能進(jìn)一步得...
閱讀原文

問小白o(hù)4

問小白o(hù)4是國內(nèi)首個(gè)并行思考模型,能同時(shí)啟動(dòng)8條思考路徑,自動(dòng)篩選最優(yōu)解,提供精準(zhǔn)答案。模型融合Long?CoT強(qiáng)化學(xué)習(xí)與過程獎(jiǎng)勵(lì)學(xué)習(xí),具備深度推理和高質(zhì)量思...
閱讀原文

FutureX

FutureX是字節(jié)跳動(dòng)、復(fù)旦大學(xué)、斯坦福大學(xué)和普林斯頓大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布的,專為L(zhǎng)LM智能體未來預(yù)測(cè)任務(wù)設(shè)計(jì)的動(dòng)態(tài)實(shí)時(shí)評(píng)估基準(zhǔn)。通過半自動(dòng)化管道從195個(gè)...
閱讀原文

DeepSeek V3.1

DeepSeek V3.1是DeepSeek最新推出的AI模型版本,具備混合推理架構(gòu),能自由切換思考模式與非思考模式,思考效率顯著提升。模型在V3的基礎(chǔ)上進(jìn)行多項(xiàng)升級(jí),上下...
閱讀原文

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5(簡(jiǎn)稱SF-LLaVA-1.5)是專為長(zhǎng)視頻理解設(shè)計(jì)的高效視頻大語言模型。基于雙流(SlowFast)機(jī)制,平衡處理更多輸入幀與減少每幀令牌數(shù)量之間...
閱讀原文

ComoRAG

ComoRAG 是華南理工大學(xué)未來技術(shù)學(xué)院、微信 AI 團(tuán)隊(duì)等機(jī)構(gòu)聯(lián)合推出的認(rèn)知啟發(fā)式檢索增強(qiáng)生成(RAG)框架,專門用在長(zhǎng)篇敘事文本的理解和推理。
閱讀原文

Grok 2.5

Grok 2.5 是埃隆·馬斯克旗下 xAI 公司開源的人工智能模型。模型文件可在 Hugging Face 下載,包含 42 個(gè)文件,總大小約 500GB,需 8 張顯存超 40GB 的 GPU 才...
閱讀原文
17891011145