AI項目和框架

PhotoPrism

PhotoPrism 是一個開源的AI照片管理工具,用 Go 語言編寫,旨在為用戶提供一個去中心化的照片存儲和組織解決方案。支持用戶在自己的硬件上運行,完全控制自己...
閱讀原文

Claude Dev

Claude Dev是一個集成在Visual Studio Code中的AI編程助手,基于Anthropic公司的Claude 3.5 Sonnet模型,為開發(fā)者提供自動化的編程支持。Claude Dev自動處理...
閱讀原文

FaceSwap

FaceSwap 是一個開源的AI軟件,用于創(chuàng)建深度偽造(Deepfakes)視頻和圖像。基于深度學習技術(shù),在視頻或圖片中將一個人的臉替換成另一個人的臉。FaceSwap 支持...
閱讀原文

Seed-Music

Seed-Music是字節(jié)跳動推出的AI音樂生成大模型,將用戶錄制的 10 秒音頻轉(zhuǎn)化為完整的音樂作品。通過自回歸語言模型和擴散方法,根據(jù)用戶的多模態(tài)輸入(如風格...
閱讀原文

ConFiner

ConFiner 是一個創(chuàng)新的視頻生成框架,由多所大學和研究機構(gòu)共同推出。結(jié)合多個現(xiàn)成的擴散模型專家,無需額外訓練可生成高質(zhì)量且連貫的視頻內(nèi)容。

M2UGen

M2UGen是先進的多模態(tài)音樂理解和生成框架,由騰訊PCG ARC實驗室與新加坡國立大學聯(lián)合推出。結(jié)合了大型語言模型(LLM)的能力,能處理包括文本、圖像、視頻和...
閱讀原文

Nemotron-Mini-4B-Instruct

Nemotron-Mini-4B-Instruct是英偉達推出的一款開源小型語言模型,專為角色扮演、檢索增強生成(RAG)和函數(shù)調(diào)用任務優(yōu)化。模型通過蒸餾、剪枝和量化技術(shù)優(yōu)化...
閱讀原文

PoseTalk

PoseTalk 是基于文本和音頻的姿勢控制和運動細化方法的開源項目,用于一次性生成會說話的頭部視頻。從圖像、驅(qū)動音頻和驅(qū)動姿勢合成說話人臉視頻,為用戶提供...
閱讀原文

Follow-Your-Canvas

Follow-Your-Canvas 是由騰訊混元團隊與清華大學等機構(gòu)合作推出的一種高分辨率視頻擴展技術(shù)。通過分布式處理和布局對齊兩個核心設計,將視頻內(nèi)容擴展到任意分...
閱讀原文

Filmfotos

Filmfotos是由DynamicWang推出的的基于Flux架構(gòu)的LoRA模型,專注于模擬和還原膠片的質(zhì)感效果。以低飽和度的日系膠片風格為特點,為照片帶來柔和、細膩的復古...
閱讀原文

Faster Whisper

Faster Whisper 是一個基于OpenAI Whisper模型的高效語音識別工具,運用CTranslate2引擎實現(xiàn)快速推理。在保持高準確度的同時,提升語音轉(zhuǎn)寫速度,降低內(nèi)存使...
閱讀原文

SwiftBrush V2

SwiftBrush V2 是文本到圖像的單步擴散模型,通過改進訓練方法和模型融合技術(shù),實現(xiàn)與多步Stable Diffusion擴散模型相媲美的性能。模型通過更好的權(quán)重初始化...
閱讀原文

Jina-embeddings-v3

Jina-embeddings-v3 是 Jina AI 推出的一款先進的文本嵌入模型,專為多語言數(shù)據(jù)處理和長文本上下文檢索任務設計。模型擁有 5.7 億參數(shù),支持長達 8192 個 tok...
閱讀原文

Click2Mask

Click2Mask 是一種先進的圖像編輯技術(shù),支持用戶通過在圖片上簡單點擊來實現(xiàn)局部編輯,無需復雜的遮罩或詳細描述。通過動態(tài)生成遮罩,結(jié)合混合潛在擴散(BLD...
閱讀原文

DrawingSpinUp

DrawingSpinUp 是一種先進的3D動畫生成技術(shù),由香港城市大學的研究團隊推出。模型將平面的角色繪畫轉(zhuǎn)化為具有3D效果的動態(tài)動畫,同時保留原始藝術(shù)作品的風格...
閱讀原文