AI項目和框架

GarDiff

GarDiff是一種創新的虛擬試穿技術,通過使用CLIP和VAE編碼來提取服裝的外觀先驗,結合服裝聚焦適配器和高頻細節增強算法,生成高保真且細節豐富的試穿圖像。...
閱讀原文

NeMo

NeMo 是由 NVIDIA 提供的端到端云原生框架,用于構建、定制和部署生成式 AI 模型。支持大型語言模型(LLMs)、多模態模型、語音識別和文本轉語音(TTS)等應...
閱讀原文

Oryx

Oryx是由清華大學、騰訊和南洋理工大學聯合推出的多模態大型語言模型(MLLM),基于兩項核心創新來處理視覺數據,預訓練的OryxViT模型和動態壓縮模塊。OryxVi...
閱讀原文

I2VEdit

I2VEdit是一個先進的視頻編輯框架,通過圖像到視頻的擴散模型實現首幀引導的視頻編輯。用戶只需編輯視頻的第一幀,I2VEdit能自動將編輯效果應用到整個視頻。
閱讀原文

HouseCrafter

HouseCrafter 是由東北大學和 Stability AI 推出的先進技術,將二維平面圖自動轉換成三維室內場景。基于一個網絡規模圖像訓練的2D擴散模型,生成一致的多視圖...
閱讀原文

AMD-135M

AMD-135M是AMD推出的首款小型語言模型(SLM),為特定用例提供性能與資源消耗之間的平衡。基于LLaMA2模型架構,在AMD Instinct MI250加速器上訓練,基于670億...
閱讀原文

JoyHallo

JoyHallo 是京東開源的AI數字人模型,專為普通話設計,能根據音頻生成逼真的說話視頻。特別適合處理普通話的復雜口型和語調,具有跨語言生成視頻的能力。
閱讀原文

Seed-VC

Seed-VC 是一種零樣本聲音轉換技術,基于上下文學習實現高質量的音頻輸出和音色相似度。用戶無需進行特定訓練,只需提供1到30秒的參考語音樣本,實現聲音的克...
閱讀原文

Phidias

Phidias是一個先進的3D內容生成模型,將檢索增強生成(RAG)的概念引入到3D建模領域。模型能基于用戶提供的或從大型數據庫中檢索到的3D參考模型,輔助生成新...
閱讀原文

Movie Gen

Movie Gen 是 Meta 推出的AI視頻生成工具,能根據文本提示生成和編輯視頻,為視頻配上同步音頻。技術包括創建長達16秒的高清視頻、為現有視頻配上音頻、編輯...
閱讀原文

Mini-LLaVA

Mini-LLaVA是一款輕量級的多模態大語言模型,由清華大學和北京航空航天大學的研究團隊聯合開發。能處理圖像、文本和視頻輸入,實現高效的多模態數據處理。Min...
閱讀原文

MemoryScope

MemoryScope是一個為大型語言模型(LLM)聊天機器人設計的長期記憶系統。通過構建一個框架,使機器人記住用戶的基礎信息、習慣和偏好,提供個性化的交互體驗...
閱讀原文

CogView3

CogView3是清華大學聯合智譜AI推出的開源AI圖像生成模型,采用中繼擴散技術。模型分階段生成圖像,首先創建低分辨率圖像,然后通過中繼超分辨率技術提升至高...
閱讀原文

RTranslator

RTranslator 是一款開源、免費、離線實時翻譯應用程序,專為 Android 設備設計。基于先進的AI技術,包括 Meta 的 NLLB 翻譯模型和 OpenAI 的 Whisper 語音識...
閱讀原文

Molmo 72B

Molmo 72B是由艾倫人工智能研究所(Ai2)推出的一個開源多模態AI模型,專門設計用于處理和理解圖像和文本數據。基于Qwen2-72B模型,使用OpenAI的CLIP作為視覺...
閱讀原文