AI項目和框架

FaceSwap

FaceSwap 是一個開源的AI軟件,用于創建深度偽造(Deepfakes)視頻和圖像。基于深度學習技術,在視頻或圖片中將一個人的臉替換成另一個人的臉。FaceSwap 支持...
閱讀原文

Seed-Music

Seed-Music是字節跳動推出的AI音樂生成大模型,將用戶錄制的 10 秒音頻轉化為完整的音樂作品。通過自回歸語言模型和擴散方法,根據用戶的多模態輸入(如風格...
閱讀原文

ConFiner

ConFiner 是一個創新的視頻生成框架,由多所大學和研究機構共同推出。結合多個現成的擴散模型專家,無需額外訓練可生成高質量且連貫的視頻內容。

M2UGen

M2UGen是先進的多模態音樂理解和生成框架,由騰訊PCG ARC實驗室與新加坡國立大學聯合推出。結合了大型語言模型(LLM)的能力,能處理包括文本、圖像、視頻和...
閱讀原文

Nemotron-Mini-4B-Instruct

Nemotron-Mini-4B-Instruct是英偉達推出的一款開源小型語言模型,專為角色扮演、檢索增強生成(RAG)和函數調用任務優化。模型通過蒸餾、剪枝和量化技術優化...
閱讀原文

PoseTalk

PoseTalk 是基于文本和音頻的姿勢控制和運動細化方法的開源項目,用于一次性生成會說話的頭部視頻。從圖像、驅動音頻和驅動姿勢合成說話人臉視頻,為用戶提供...
閱讀原文

Follow-Your-Canvas

Follow-Your-Canvas 是由騰訊混元團隊與清華大學等機構合作推出的一種高分辨率視頻擴展技術。通過分布式處理和布局對齊兩個核心設計,將視頻內容擴展到任意分...
閱讀原文

Filmfotos

Filmfotos是由DynamicWang推出的的基于Flux架構的LoRA模型,專注于模擬和還原膠片的質感效果。以低飽和度的日系膠片風格為特點,為照片帶來柔和、細膩的復古...
閱讀原文

Faster Whisper

Faster Whisper 是一個基于OpenAI Whisper模型的高效語音識別工具,運用CTranslate2引擎實現快速推理。在保持高準確度的同時,提升語音轉寫速度,降低內存使...
閱讀原文

SwiftBrush V2

SwiftBrush V2 是文本到圖像的單步擴散模型,通過改進訓練方法和模型融合技術,實現與多步Stable Diffusion擴散模型相媲美的性能。模型通過更好的權重初始化...
閱讀原文

Jina-embeddings-v3

Jina-embeddings-v3 是 Jina AI 推出的一款先進的文本嵌入模型,專為多語言數據處理和長文本上下文檢索任務設計。模型擁有 5.7 億參數,支持長達 8192 個 tok...
閱讀原文

Click2Mask

Click2Mask 是一種先進的圖像編輯技術,支持用戶通過在圖片上簡單點擊來實現局部編輯,無需復雜的遮罩或詳細描述。通過動態生成遮罩,結合混合潛在擴散(BLD...
閱讀原文

DrawingSpinUp

DrawingSpinUp 是一種先進的3D動畫生成技術,由香港城市大學的研究團隊推出。模型將平面的角色繪畫轉化為具有3D效果的動態動畫,同時保留原始藝術作品的風格...
閱讀原文

Qwen2.5-Coder

Qwen2.5-Coder 是阿里Qwen 團隊推出的全系列代碼生成模型,推動開源代碼語言模型的發展。在代碼生成、代碼推理、代碼修復等任務上表現出色。系列涵蓋了不同規...
閱讀原文

Qwen2.5-Math

Qwen2.5-Math是由阿里巴巴Qwen團隊推出的開源AI數學模型,是Qwen2-Math的升級版,支持中英雙語。模型通過大規模數學數據預訓練,結合CoT、PoT和TIR推理方法,...
閱讀原文