AI項目和框架

CCI 3.0

CCI 3.0是智源研究院發布的一個大規模的中文互聯網語料庫,包含了1000GB的數據集和498GB的高質量子集CCI 3.0-HQ。該版本在數據規模上相較于CCI 2.0擴大了近一...
閱讀原文

MemFree

MemFree是一款開源的混合AI搜索引擎,通過整合多種AI模型和搜索引擎,提供高效、多樣化的搜索體驗??梢杂梦谋?、圖像、文件和網頁等多種方式進行搜索和提問,...
閱讀原文

GarDiff

GarDiff是一種創新的虛擬試穿技術,通過使用CLIP和VAE編碼來提取服裝的外觀先驗,結合服裝聚焦適配器和高頻細節增強算法,生成高保真且細節豐富的試穿圖像。...
閱讀原文

NeMo

NeMo 是由 NVIDIA 提供的端到端云原生框架,用于構建、定制和部署生成式 AI 模型。支持大型語言模型(LLMs)、多模態模型、語音識別和文本轉語音(TTS)等應...
閱讀原文

Oryx

Oryx是由清華大學、騰訊和南洋理工大學聯合推出的多模態大型語言模型(MLLM),基于兩項核心創新來處理視覺數據,預訓練的OryxViT模型和動態壓縮模塊。OryxVi...
閱讀原文

I2VEdit

I2VEdit是一個先進的視頻編輯框架,通過圖像到視頻的擴散模型實現首幀引導的視頻編輯。用戶只需編輯視頻的第一幀,I2VEdit能自動將編輯效果應用到整個視頻。
閱讀原文

HouseCrafter

HouseCrafter 是由東北大學和 Stability AI 推出的先進技術,將二維平面圖自動轉換成三維室內場景?;谝粋€網絡規模圖像訓練的2D擴散模型,生成一致的多視圖...
閱讀原文

AMD-135M

AMD-135M是AMD推出的首款小型語言模型(SLM),為特定用例提供性能與資源消耗之間的平衡。基于LLaMA2模型架構,在AMD Instinct MI250加速器上訓練,基于670億...
閱讀原文

JoyHallo

JoyHallo 是京東開源的AI數字人模型,專為普通話設計,能根據音頻生成逼真的說話視頻。特別適合處理普通話的復雜口型和語調,具有跨語言生成視頻的能力。
閱讀原文

Seed-VC

Seed-VC 是一種零樣本聲音轉換技術,基于上下文學習實現高質量的音頻輸出和音色相似度。用戶無需進行特定訓練,只需提供1到30秒的參考語音樣本,實現聲音的克...
閱讀原文

Phidias

Phidias是一個先進的3D內容生成模型,將檢索增強生成(RAG)的概念引入到3D建模領域。模型能基于用戶提供的或從大型數據庫中檢索到的3D參考模型,輔助生成新...
閱讀原文

Movie Gen

Movie Gen 是 Meta 推出的AI視頻生成工具,能根據文本提示生成和編輯視頻,為視頻配上同步音頻。技術包括創建長達16秒的高清視頻、為現有視頻配上音頻、編輯...
閱讀原文

Mini-LLaVA

Mini-LLaVA是一款輕量級的多模態大語言模型,由清華大學和北京航空航天大學的研究團隊聯合開發。能處理圖像、文本和視頻輸入,實現高效的多模態數據處理。Min...
閱讀原文

MemoryScope

MemoryScope是一個為大型語言模型(LLM)聊天機器人設計的長期記憶系統。通過構建一個框架,使機器人記住用戶的基礎信息、習慣和偏好,提供個性化的交互體驗...
閱讀原文

CogView3

CogView3是清華大學聯合智譜AI推出的開源AI圖像生成模型,采用中繼擴散技術。模型分階段生成圖像,首先創建低分辨率圖像,然后通過中繼超分辨率技術提升至高...
閱讀原文