AI項目和框架

Moondream

Moondream是一個免費開源的小型的人工智能視覺語言模型,雖然參數量小但可以提供高性能的視覺處理能力,可在本地計算機甚至移動設備或 Raspberry Pi 上運行,...
閱讀原文

PIXART-Σ

PixArt-Σ是由來自華為諾亞方舟實驗室、大連理工大學和香港大學的研究人員推出的一個基于擴散Transformer架構(DiT)的文生圖模型,專門設計用于從文本提示直...
閱讀原文

ELLA

ELLA(Efficient Large Language Model Adapter,高效的大模型適配器)是由騰訊的研究人員推出的一種新型方法,旨在提升文本到圖像生成模型在處理復雜文本提...
閱讀原文

Transformer Debugger

Transformer Debugger (TDB) 是由 OpenAI 的對齊團隊(Superalignment)開發的一款工具,旨在幫助研究人員和開發者更深入地理解和分析 Transformer 模型的內...
閱讀原文

Pix2Gif

Pix2Gif是由微軟研究院的研究人員提出的一個基于運動引導的擴散模型,專門用于將靜態圖像轉換成動態的GIF動畫/視頻。該模型通過運動引導的擴散過程來實現圖像...
閱讀原文

ComflowySpace

ComflowySpace是一款專為簡化和增強AI圖像及視頻生成工具使用體驗而設計的開源軟件,基于ComfyUI和Stable Diffusion,旨在提供一個更加用戶友好和高效的工作...
閱讀原文

Follow-Your-Click

Follow-Your-Click是一個由來自騰訊公司(混元團隊)聯合清華大學和香港科技大學的研究人員共同研發的圖像到視頻(Image-to-Video,簡稱I2V)生成模型,允許...
閱讀原文

AutoDev

AutoDev是由微軟的研究人員推出的一個AI編程和程序開發智能體框架,專門設計用于自主規劃和執行復雜的軟件工程任務,如代碼編寫、調試、測試和版本控制等。Au...
閱讀原文

Grok-1

Grok-1 是由馬斯克旗下的人工智能初創公司 xAI 開發的一款大型語言模型,是一個混合專家(MoE)模型,擁有 3140 億參數,使其成為目前參數量最大的開源大語言...
閱讀原文

Open-Sora

Open-Sora是由Colossal-AI團隊開源的視頻生成模型,旨在復現OpenAI的Sora視頻生成產品。Open-Sora同樣基于DiT架構,通過三個階段訓練:大規模圖像預訓練、大...
閱讀原文

VLOGGER

VLOGGER AI是谷歌的研究團隊開發的一個多模態擴散模型,專門用于從單一輸入圖像和音頻樣本生成逼真的、連貫的人像動態視頻。該模型的主要功能在于使用人工智...
閱讀原文

Stable Video 3D (SV3D)

Stable Video 3D(簡稱SV3D)是由Stability AI公司開發的一項先進的3D技術,能夠從單張圖片生成高質量的新視角視圖和3D網格。該模型在之前發布的Stable Video...
閱讀原文

AnimateDiff-Lightning

AnimateDiff-Lightning由字節跳動的研究人員最新推出的一個高質量視頻生成模型,利用了漸進式對抗性擴散蒸餾技術來實現快速的視頻生成。該模型旨在解決現有視...
閱讀原文

StreamMultiDiffusion

StreamMultiDiffusion是一個實時交互式的圖像生成框架,結合了擴散模型的高質量圖像合成能力和區域控制的靈活性,可根據用戶指定的區域文本提示生成實時、交...
閱讀原文

Mora

Mora是由來自微軟和理海大學的研究人員推出的一個多智能體(AI Agents)框架,專門用于通用視頻生成任務,目標是模擬并擴展OpenAI的Sora視頻生成模型。該框架...
閱讀原文