AI項(xiàng)目和框架

HunyuanVideo-Foley

HunyuanVideo-Foley是騰訊混元團(tuán)隊(duì)開源的端到端視頻音效生成模型。模型能根據(jù)輸入的視頻和文字描述，生成與視頻畫面精準(zhǔn)匹配的高質(zhì)量音效，解決現(xiàn)有AI視頻生...

3個(gè)月前

問小白5

問小白5是問小白推出的“All in One”旗艦大模型，是國(guó)產(chǎn)大模型中智能水平最高的。模型在多項(xiàng)評(píng)測(cè)中表現(xiàn)優(yōu)異，如AA-Index綜合評(píng)估指標(biāo)得分64.7分，STEM能力評(píng)測(cè)...

閱讀原文

AI工具

3個(gè)月前

Grok Code Fast 1

Grok Code Fast 1 是 xAI 推出的 AI 編程模型，專為快速高效的基礎(chǔ)代碼任務(wù)設(shè)計(jì)。模型每秒可處理92個(gè)標(biāo)記，擁有256k的上下文窗口，適合快速原型開發(fā)、代碼調(diào)...

閱讀原文

AI工具

3個(gè)月前

PixVerse V5

PixVerse V5是愛詩科技推出的自研AI視頻生成大模型，已在全球同步上線。PixVerse V5版本在動(dòng)態(tài)效果、視覺質(zhì)量、一致性保持和指令遵循等方面進(jìn)行全面升級(jí)，能...

閱讀原文

AI工具

3個(gè)月前

FramePackLoop

FramePackLoop 是基于 FramePack 推出的無限循環(huán)視頻生成工具。工具通過創(chuàng)建主視頻和連接視頻，將視頻組合成循環(huán)視頻，適用視頻背景、圖標(biāo)等場(chǎng)景。

閱讀原文

AI工具

3個(gè)月前

MiniCPM-V 4.5

MiniCPM-V 4.5是面壁智能推出的端側(cè)多模態(tài)模型，擁有8B參數(shù)。模型在圖片、視頻、OCR等多個(gè)領(lǐng)域表現(xiàn)卓越，尤其在高刷視頻理解方面取得突破，能處理高刷新率視...

閱讀原文

AI工具

3個(gè)月前

Waver 1.0

Waver 1.0 是字節(jié)跳動(dòng)推出的新一代視頻生成模型，基于修正流 Transformer 架構(gòu)，支持文本到視頻（T2V）、圖像到視頻（I2V）和文本到圖像（T2I）生成，可在單...

閱讀原文

AI工具

3個(gè)月前

Youtu-agent

Youtu-agent 是騰訊優(yōu)圖實(shí)驗(yàn)室推出的開源智能體框架，用在構(gòu)建、運(yùn)行和評(píng)估自主智能體。框架基于開源模型DeepSeek-V3實(shí)現(xiàn)領(lǐng)先性能，支持多種模型 API 和工具...

閱讀原文

AI工具

3個(gè)月前

Wan2.2-S2V

Wan2.2-S2V 是開源的多模態(tài)視頻生成模型，僅需一張靜態(tài)圖片和一段音頻，能生成電影級(jí)數(shù)字人視頻，視頻時(shí)長(zhǎng)可達(dá)分鐘級(jí)，且支持多種圖片類型和畫幅。

閱讀原文

AI工具

3個(gè)月前

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image（代號(hào)nano banana）是谷歌 AI Studio推出的先進(jìn)圖像生成與編輯模型。模型能保持角色在不同場(chǎng)景中的一致性，支持通過自然語言進(jìn)行精準(zhǔn)...

閱讀原文

AI工具

3個(gè)月前

SpatialLM 1.5

SpatialLM 1.5 是群核科技推出的強(qiáng)大的空間語言模型。模型基于大語言模型訓(xùn)練，能理解自然語言指令，輸出包含空間結(jié)構(gòu)、物體關(guān)系和物理參數(shù)的空間語言。用戶...

閱讀原文

AI工具

3個(gè)月前

WhisperLiveKit

WhisperLiveKit 是開源的實(shí)時(shí)語音識(shí)別工具，能將語音實(shí)時(shí)轉(zhuǎn)錄為文字，支持說話人識(shí)別。工具基于先進(jìn)的技術(shù)如 SimulStreaming 和 WhisperStreaming，提供超低...

閱讀原文

AI工具

3個(gè)月前

XBai o4

XBai o4是開源的大語言模型，基于“反射生成形式”訓(xùn)練，結(jié)合長(zhǎng)CoT強(qiáng)化學(xué)習(xí)和過程獎(jiǎng)勵(lì)學(xué)習(xí)，在復(fù)雜推理能力上表現(xiàn)出色，中等模式下已超越OpenAI-o3-mini。

AI工具

3個(gè)月前

VibeVoice

VibeVoice 是微軟推出的新型文本到語音（TTS）模型，能生成富有表現(xiàn)力、長(zhǎng)篇幅、多說話者的對(duì)話式音頻，如播客。

閱讀原文

AI工具

3個(gè)月前

EchoMimicV3

EchoMimicV3是螞蟻集團(tuán)推出的高效多模態(tài)、多任務(wù)數(shù)字人視頻生成框架。框架擁有13億參數(shù)，基于任務(wù)混合和模態(tài)混合范式，結(jié)合新穎的訓(xùn)練與推理策略，實(shí)現(xiàn)快速、...

閱讀原文

AI工具

3個(gè)月前

1…16 171819 20…155