AI項目和框架

Motion Prompting:谷歌攜手密歇根與布朗大學推出創新軌跡控制視頻生成模型

Motion Prompting是 Google DeepMind、密歇根大學和布朗大學聯合推出的視頻生成技術,基于運動軌跡(motion trajectories)控制和引導視頻內容的生成。Motion...
閱讀原文

Fish Audio 推出的語音合成模型,支持13種語言

Fish Speech 1.5 是Fish Audio 推出的文本到語音(TTS)模型,基于深度學習技術如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英語、日語、韓語、...
閱讀原文

Perplexideez:智能信息追溯助手提升搜索效率與準確性

Perplexideez是本地AI助手,支持用戶在網絡和自托管應用中快速搜索信息。Perplexideez項目以Postgres數據庫為基礎,支持Ollama或OpenAI兼容的端點,用SearXNG...
閱讀原文

Micro LLAMA:探索LLAMA 3模型的核心原理與應用特點

Micro LLAMA是精簡的教學版LLAMA 3模型實現,能幫助學習者理解大型語言模型架構。整個項目僅約180行代碼,便于理解和學習。Micro LLAMA用的是LLAMA 3中最小的...
閱讀原文

GenCast:DeepMind推出的性AI氣象預測模型提氣預報精準度與效率

GenCast是DeepMind推出的革命性AI氣象預測模型,基于擴散模型技術,提供長達15天的全球天氣預報。GenCast在97.2%的預測任務中超越全球頂尖的中期天氣預報系統...
閱讀原文

Luma Photon:創新圖像生成模型助力無限創意與高效創作

Luma Photon 是 Luma AI 推出的新一代圖像生成模型,用創新的架構提供超高圖像質量和低成本效率。Luma Photon支持個性化和創造性的圖像生成,能理解自然語言...
閱讀原文

TeleAI 視頻生成大模型:智能視頻創作助手助力內容創作與傳播

TeleAI 視頻生成大模型是中國電信AI研究院推出的視頻生成模型,基于兩階段生成框架:先根據文本描述創建分鏡頭草圖,再基于草圖生成視頻。TeleAI 視頻生成大...
閱讀原文

TPDM:創新時間預測擴散模型推動高校科研合作與發展

TPDM(Time Prediction Diffusion Model)是西湖大學MAPLE實驗室、南方科技大學、北京大學及西湖大學高等研究院先進技術研究所聯合推出的圖像生成模型,能自...
閱讀原文

ConsisID:智能文本到視頻生成模型實現創意內容的快速轉化

ConsisID是北京大學和鵬城實驗室等機構推出的文本到視頻(Text-to-Video, IPT2V)生成模型,基于頻率分解技術保持視頻中人物身份的一致性。模型用免調優(tun...
閱讀原文

復旦聯合微軟等機構推出的端到端身份一致性視頻擴散框架

StableAnimator是復旦大學、微軟亞洲研究院、虎牙公司和卡內基梅隆大學共同推出的端到端高質量身份保持視頻擴散框架。StableAnimator能根據一張參考圖像和一...
閱讀原文

I2V-01-Live:海螺AI創新圖生視頻模型助力創意內容生成與視覺表現提升

I2V-01-Live是海螺AI推出的圖生視頻模型,能將靜態二維圖像轉化為動態視頻。模型基于深度學習技術,增強動作的流暢度和生動性,讓人物或對象的動作更加自然和...
閱讀原文

開源AI檢索生成框架,自動生成精確的SQL查詢

Vanna是開源的Python RAG(Retrieval-Augmented Generation)框架,能幫助用戶基于大型語言模型(LLMs)為其數據庫生成精確的SQL查詢。Vanna用兩步簡單流程操...
閱讀原文

首爾國立大學推出的單參考圖像生成多身份全身圖像技術

PersonaCraft是韓國首爾國立大學推出的個性化全身圖像合成技術,結合擴散模型和3D人類建模,能從單一參考圖像生成多個人物的逼真、個性化全身圖像。PersonaCr...
閱讀原文

GeneMAN:創新3D人體模型創建框架助力精準數字化人體重建

GeneMAN是上海AI實驗室、北京大學、南洋理工大學、上海交通大學聯合推出的3D人形創建框架,能從單張圖片中創建出高保真度的3D人體模型。框架不依賴于參數化人...
閱讀原文

MagicDriveDiT:高分辨率自動駕駛長視頻生成技術創新與應用

MagicDriveDiT是香港中文大學、香港科技大學、華為云和華為諾亞方舟實驗室共同推出基于DiT架構的新型視頻生成方法,專為自動駕駛應用設計,實現高分辨率和長...
閱讀原文