AI項(xiàng)目和框架
HunyuanVideo-Foley
HunyuanVideo-Foley是騰訊混元團(tuán)隊(duì)開源的端到端視頻音效生成模型。模型能根據(jù)輸入的視頻和文字描述,生成與視頻畫面精準(zhǔn)匹配的高質(zhì)量音效,解決現(xiàn)有AI視頻生...
Grok Code Fast 1
Grok Code Fast 1 是 xAI 推出的 AI 編程模型,專為快速高效的基礎(chǔ)代碼任務(wù)設(shè)計(jì)。模型每秒可處理92個(gè)標(biāo)記,擁有256k的上下文窗口,適合快速原型開發(fā)、代碼調(diào)...
PixVerse V5
PixVerse V5是愛詩科技推出的自研AI視頻生成大模型,已在全球同步上線。PixVerse V5版本在動(dòng)態(tài)效果、視覺質(zhì)量、一致性保持和指令遵循等方面進(jìn)行全面升級(jí),能...
FramePackLoop
FramePackLoop 是基于 FramePack 推出的無限循環(huán)視頻生成工具。工具通過創(chuàng)建主視頻和連接視頻,將視頻組合成循環(huán)視頻,適用視頻背景、圖標(biāo)等場(chǎng)景。
MiniCPM-V 4.5
MiniCPM-V 4.5是面壁智能推出的端側(cè)多模態(tài)模型,擁有8B參數(shù)。模型在圖片、視頻、OCR等多個(gè)領(lǐng)域表現(xiàn)卓越,尤其在高刷視頻理解方面取得突破,能處理高刷新率視...
Youtu-agent
Youtu-agent 是騰訊優(yōu)圖實(shí)驗(yàn)室推出的開源智能體框架,用在構(gòu)建、運(yùn)行和評(píng)估自主智能體。框架基于開源模型DeepSeek-V3實(shí)現(xiàn)領(lǐng)先性能,支持多種模型 API 和工具...
Wan2.2-S2V
Wan2.2-S2V 是開源的多模態(tài)視頻生成模型,僅需一張靜態(tài)圖片和一段音頻,能生成電影級(jí)數(shù)字人視頻,視頻時(shí)長(zhǎng)可達(dá)分鐘級(jí),且支持多種圖片類型和畫幅。
Gemini 2.5 Flash Image
Gemini 2.5 Flash Image(代號(hào)nano banana)是谷歌 AI Studio推出的先進(jìn)圖像生成與編輯模型。模型能保持角色在不同場(chǎng)景中的一致性,支持通過自然語言進(jìn)行精準(zhǔn)...
SpatialLM 1.5
SpatialLM 1.5 是群核科技推出的強(qiáng)大的空間語言模型。模型基于大語言模型訓(xùn)練,能理解自然語言指令,輸出包含空間結(jié)構(gòu)、物體關(guān)系和物理參數(shù)的空間語言。用戶...
WhisperLiveKit
WhisperLiveKit 是開源的實(shí)時(shí)語音識(shí)別工具,能將語音實(shí)時(shí)轉(zhuǎn)錄為文字,支持說話人識(shí)別。工具基于先進(jìn)的技術(shù)如 SimulStreaming 和 WhisperStreaming,提供超低...
XBai o4
XBai o4是開源的大語言模型,基于“反射生成形式”訓(xùn)練,結(jié)合長(zhǎng)CoT強(qiáng)化學(xué)習(xí)和過程獎(jiǎng)勵(lì)學(xué)習(xí),在復(fù)雜推理能力上表現(xiàn)出色,中等模式下已超越OpenAI-o3-mini。
EchoMimicV3
EchoMimicV3是螞蟻集團(tuán)推出的高效多模態(tài)、多任務(wù)數(shù)字人視頻生成框架。框架擁有13億參數(shù),基于任務(wù)混合和模態(tài)混合范式,結(jié)合新穎的訓(xùn)練與推理策略,實(shí)現(xiàn)快速、...
粵公網(wǎng)安備 44011502001135號(hào)