AI項目和框架

StarCoder 2

StarCoder 2是由BigCode項目團隊開發的新一代大型代碼語言模型,旨在為代碼生成、編輯和推理任務提供強大的支持。該系列模型在前一代StarCoder模型的基礎上進...
閱讀原文

MeloTTS

MeloTTS 是一個由 MyShell AI 開發的開源的高質量多語言文本轉語音(TTS)庫,能夠將文本轉換成自然流暢的語音輸出,支持多種語言。MeloTTS 的語音合成速度非...
閱讀原文

Snap Video

Snap Video是由Snap公司的研究團隊開發的一個AI視頻生成模型,目標是通過文本描述來合成視頻,即用戶可以輸入一段描述性的文本,模型能夠根據這段文本生成相...
閱讀原文

LayerDiffusion

LayerDiffusion是由來自斯坦福大學的研究人員提出的一種利用大規模預訓練的潛在擴散模型生成透明圖像的技術,可以幫助用戶生成單個透明圖像或多個透明圖層。...
閱讀原文

TextDiffuser-2

Text-Diffuser 2是由來自微軟研究院、香港科技大學和中山大學的研究人員最新推出的一個基于擴散模型的文本渲染方法,旨在解決圖像擴散模型生成文字時在靈活性...
閱讀原文

UniEdit

UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架,允許用戶在不需要進行模型微調的情況下,對視頻的運動和外觀進行編輯,...
閱讀原文

DUSt3R

DUSt3R是由來自芬蘭阿爾托大學和Naver歐洲實驗室的研究人員推出的一個3D重建框架,旨在簡化從任意圖像集合中重建三維場景的過程,而無需事先了解相機校準或視...
閱讀原文

ScreenAI

ScreenAI是一個由谷歌的研究團隊推出的可讀屏AI視覺語言模型,專門設計用于理解和處理用戶界面(UI)和信息圖表。該模型基于PaLI架構結合了視覺和語言處理的...
閱讀原文

ResAdapter

ResAdapter是由字節跳動的研究人員推出的一種為擴散模型(如Stable Diffusion)設計的分辨率適配器,允許這些圖像生成模型生成具有任意分辨率和寬高比的圖像...
閱讀原文

AtomoVideo

AtomoVideo是由阿里巴巴的研究團隊提出的一個高保真圖像到視頻(I2V)生成框架,旨在從輸入的靜態圖像生成高質量的視頻內容。該框架能夠保持生成視頻與給定參...
閱讀原文

Moondream

Moondream是一個免費開源的小型的人工智能視覺語言模型,雖然參數量小但可以提供高性能的視覺處理能力,可在本地計算機甚至移動設備或 Raspberry Pi 上運行,...
閱讀原文

PIXART-Σ

PixArt-Σ是由來自華為諾亞方舟實驗室、大連理工大學和香港大學的研究人員推出的一個基于擴散Transformer架構(DiT)的文生圖模型,專門設計用于從文本提示直...
閱讀原文

ELLA

ELLA(Efficient Large Language Model Adapter,高效的大模型適配器)是由騰訊的研究人員推出的一種新型方法,旨在提升文本到圖像生成模型在處理復雜文本提...
閱讀原文

Transformer Debugger

Transformer Debugger (TDB) 是由 OpenAI 的對齊團隊(Superalignment)開發的一款工具,旨在幫助研究人員和開發者更深入地理解和分析 Transformer 模型的內...
閱讀原文

Pix2Gif

Pix2Gif是由微軟研究院的研究人員提出的一個基于運動引導的擴散模型,專門用于將靜態圖像轉換成動態的GIF動畫/視頻。該模型通過運動引導的擴散過程來實現圖像...
閱讀原文