AI項(xiàng)目和框架
Youtu-agent
Youtu-agent 是騰訊優(yōu)圖實(shí)驗(yàn)室推出的開源智能體框架,用在構(gòu)建、運(yùn)行和評(píng)估自主智能體。框架基于開源模型DeepSeek-V3實(shí)現(xiàn)領(lǐng)先性能,支持多種模型 API 和工具...
Wan2.2-S2V
Wan2.2-S2V 是開源的多模態(tài)視頻生成模型,僅需一張靜態(tài)圖片和一段音頻,能生成電影級(jí)數(shù)字人視頻,視頻時(shí)長(zhǎng)可達(dá)分鐘級(jí),且支持多種圖片類型和畫幅。
Gemini 2.5 Flash Image
Gemini 2.5 Flash Image(代號(hào)nano banana)是谷歌 AI Studio推出的先進(jìn)圖像生成與編輯模型。模型能保持角色在不同場(chǎng)景中的一致性,支持通過自然語言進(jìn)行精準(zhǔn)...
SpatialLM 1.5
SpatialLM 1.5 是群核科技推出的強(qiáng)大的空間語言模型。模型基于大語言模型訓(xùn)練,能理解自然語言指令,輸出包含空間結(jié)構(gòu)、物體關(guān)系和物理參數(shù)的空間語言。用戶...
WhisperLiveKit
WhisperLiveKit 是開源的實(shí)時(shí)語音識(shí)別工具,能將語音實(shí)時(shí)轉(zhuǎn)錄為文字,支持說話人識(shí)別。工具基于先進(jìn)的技術(shù)如 SimulStreaming 和 WhisperStreaming,提供超低...
XBai o4
XBai o4是開源的大語言模型,基于“反射生成形式”訓(xùn)練,結(jié)合長(zhǎng)CoT強(qiáng)化學(xué)習(xí)和過程獎(jiǎng)勵(lì)學(xué)習(xí),在復(fù)雜推理能力上表現(xiàn)出色,中等模式下已超越OpenAI-o3-mini。
EchoMimicV3
EchoMimicV3是螞蟻集團(tuán)推出的高效多模態(tài)、多任務(wù)數(shù)字人視頻生成框架。框架擁有13億參數(shù),基于任務(wù)混合和模態(tài)混合范式,結(jié)合新穎的訓(xùn)練與推理策略,實(shí)現(xiàn)快速、...
SpatialGen
SpatialGen 是群核科技開源的 3D 場(chǎng)景生成模型。模型基于擴(kuò)散模型架構(gòu),支持根據(jù)文字描述、參考圖像和 3D 空間布局,生成時(shí)空一致的多視角圖像,且能進(jìn)一步得...
DeepSeek V3.1
DeepSeek V3.1是DeepSeek最新推出的AI模型版本,具備混合推理架構(gòu),能自由切換思考模式與非思考模式,思考效率顯著提升。模型在V3的基礎(chǔ)上進(jìn)行多項(xiàng)升級(jí),上下...
SlowFast-LLaVA-1.5
SlowFast-LLaVA-1.5(簡(jiǎn)稱SF-LLaVA-1.5)是專為長(zhǎng)視頻理解設(shè)計(jì)的高效視頻大語言模型。基于雙流(SlowFast)機(jī)制,平衡處理更多輸入幀與減少每幀令牌數(shù)量之間...