AI項目和框架

Lipsync-2

Lipsync-2 是 Sync Labs 推出的全球首個零-shot 嘴型同步模型。無需針對特定演講者進行預訓練,能即時學習并生成符合獨特說話風格的嘴型同步效果。
閱讀原文

Llama Nemotron

Llama Nemotron是NVIDIA推出的一系列推理模型,專注于推理和多種智能代理(agentic AI)任務。模型基于Llama開源模型,經過NVIDIA的后訓練,加入推理能力,在...
閱讀原文

Dream-7B

Dream-7B是香港大學和華為諾亞方舟實驗室聯合推出的擴散式推理模型,是目前最強大的開源擴散大語言模型。Dream-7B訓練數據涵蓋文本、數學和代碼,預訓練使用5...
閱讀原文

Miracle F1

Miracle F1 是美圖 WHEE 推出的全新AI圖像生成模型。具備強大的圖像生成能力,能像攝影師、建筑師和畫家一樣精準地處理光影、空間和材質效果,生成的圖像真實...
閱讀原文

DeepCoder-14B-Preview

DeepCoder-14B-Preview 是 Agentica 和 Together AI 聯合開源的大型代碼生成模型,基于 Deepseek-R1-Distilled-Qwen-14B 微調而成。DeepCoder-14B-Preview基...
閱讀原文

GitHub MCP Server

GitHub MCP Server 是GitHub 官方推出的基于 Model Context Protocol (MCP) 的服務器工具,GitHub MCP Server能無縫集成 GitHub API,為開發者提供高級自動化...
閱讀原文

Nova Sonic

Nova Sonic 是亞馬遜推出的新型生成式 AI 語音模型。將語音理解與生成能力整合到一個模型中,能根據說話者的語調、風格等聲學上下文調整生成的語音響應,對話...
閱讀原文

Step-R1-V-Mini

Step-R1-V-Mini 是階躍星辰最新推出的多模態推理模型。支持圖文輸入和文字輸出,具備良好的指令遵循和通用能力,能高精度感知圖像完成復雜推理任務。模型在視...
閱讀原文

SeniorTalk

SeniorTalk 是智源研究院聯合南開大學計算機學院人類語言技術實驗室(HLT Lab)推出的全球首個中文超高齡老年人對話語音數據集。數據集包含202位75歲及以上超...
閱讀原文

ChildMandarin

ChildMandarin 是智源研究院聯合南開大學計算機學院人類語言技術實驗室(HLT Lab)共同推出的,針對3-5歲兒童的普通話語音數據集。數據集包含41.25小時的語音...
閱讀原文

SkyReels-A2

SkyReels-A2是昆侖萬維推出的可控視頻生成框架,支持根據文本提示將任意視覺元素(如人物、物體、背景)組合成合成視頻,嚴格保持與每個元素的參考圖像的一致...

ACTalker

ACTalker 是用于生成逼真說話人頭部視頻的端到端視頻擴散框架。支持單信號或多信號控制,如音頻、表情等。核心架構包括并行 Mamba 結構,通過多個分支利用不...
閱讀原文

Seedream 3.0

Seedream 3.0是字節跳動豆包大模型團隊推出的AI繪圖模型,在中文文字生成和設計感方面表現出色,解決小字生成的穩定性問題,能精準生成復雜的中文內容,提供...
閱讀原文

Quasar Alpha

Quasar Alpha 是 OpenRouter 發布的預發布版 AI 模型。擁有 100 萬 token 的超大上下文窗口,可處理超長文本和復雜文檔。代碼生成能力出色,生成速度快,延遲...
閱讀原文

OmniCam

OmniCam 是先進的多模態視頻生成框架,通過攝像機控制實現高質量的視頻生成。支持多種輸入模態組合,用戶可以提供文本描述、視頻中的軌跡或圖像作為參考,精...
閱讀原文
15152535455155