AI項目和框架

ComflowySpace

ComflowySpace是一款專為簡化和增強AI圖像及視頻生成工具使用體驗而設計的開源軟件,基于ComfyUI和Stable Diffusion,旨在提供一個更加用戶友好和高效的工作...
閱讀原文

Follow-Your-Click

Follow-Your-Click是一個由來自騰訊公司(混元團隊)聯合清華大學和香港科技大學的研究人員共同研發的圖像到視頻(Image-to-Video,簡稱I2V)生成模型,允許...
閱讀原文

AutoDev

AutoDev是由微軟的研究人員推出的一個AI編程和程序開發智能體框架,專門設計用于自主規劃和執行復雜的軟件工程任務,如代碼編寫、調試、測試和版本控制等。Au...
閱讀原文

Grok-1

Grok-1 是由馬斯克旗下的人工智能初創公司 xAI 開發的一款大型語言模型,是一個混合專家(MoE)模型,擁有 3140 億參數,使其成為目前參數量最大的開源大語言...
閱讀原文

Open-Sora

Open-Sora是由Colossal-AI團隊開源的視頻生成模型,旨在復現OpenAI的Sora視頻生成產品。Open-Sora同樣基于DiT架構,通過三個階段訓練:大規模圖像預訓練、大...
閱讀原文

VLOGGER

VLOGGER AI是谷歌的研究團隊開發的一個多模態擴散模型,專門用于從單一輸入圖像和音頻樣本生成逼真的、連貫的人像動態視頻。該模型的主要功能在于使用人工智...
閱讀原文

Stable Video 3D (SV3D)

Stable Video 3D(簡稱SV3D)是由Stability AI公司開發的一項先進的3D技術,能夠從單張圖片生成高質量的新視角視圖和3D網格。該模型在之前發布的Stable Video...
閱讀原文

AnimateDiff-Lightning

AnimateDiff-Lightning由字節跳動的研究人員最新推出的一個高質量視頻生成模型,利用了漸進式對抗性擴散蒸餾技術來實現快速的視頻生成。該模型旨在解決現有視...
閱讀原文

StreamMultiDiffusion

StreamMultiDiffusion是一個實時交互式的圖像生成框架,結合了擴散模型的高質量圖像合成能力和區域控制的靈活性,可根據用戶指定的區域文本提示生成實時、交...
閱讀原文

Mora

Mora是由來自微軟和理海大學的研究人員推出的一個多智能體(AI Agents)框架,專門用于通用視頻生成任務,目標是模擬并擴展OpenAI的Sora視頻生成模型。該框架...
閱讀原文

LATTE3D

LATTE3D是由英偉達的研究人員推出的一個文本生成3D對象的模型,能夠從文本提示描述快速生成高質量的3D內容(僅需400毫秒)。該技術的核心在于采用了一種稱為“...
閱讀原文

BrushNet

BrushNet是由騰訊PCG部門的ARC實驗室與香港大學的研究人員推出的一個基于擴散模型的即插即用的圖像照片修復(Inpainting)模型,通過分解的雙分支架構來有效...
閱讀原文

SUPIR

SUPIR是一個突破性的圖像修復和畫質增強方法,利用了大規模的生成模型StableDiffusion-XL(SDXL)和模型擴展技術,通過深度學習和多模態方法,實現了對低質量...
閱讀原文

StreamingT2V

StreamingT2V是由PicsArt AI研究團隊推出的一個文本到視頻的生成模型,旨在解決現有模型僅能生成16幀或24幀的高質量短視頻,在生成長視頻時則會遇到如視頻質...
閱讀原文

VoiceCraft

VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型,專注于零樣本語音編輯和文本到語音(TTS)任務。該模型采用Transformer架構...
閱讀原文