AI項目和框架

VideoPrism

VideoPrism是一個由谷歌研究團隊開發的通用視頻編碼器,旨在通過一個單一的凍結模型來處理多種視頻理解任務。該模型能夠從視頻中提取豐富的語義表示,使其能...
閱讀原文

GPT-SoVITS

GPT-SoVITS是一個開源的聲音克隆項目,該語音合成工具結合了GPT模型和SoVITS變聲器技術,僅需通過少量的樣本數據實現高質量的語音克隆和文本到語音轉換。該工...
閱讀原文

OpenCodeInterpreter

OpenCodeInterpreter是一個開源的代碼解釋器系統,旨在通過利用大模型結合代碼生成、執行和迭代精煉的能力,可以輔助開發者在軟件開發過程中生成、測試和優化...
閱讀原文

ChatMusician

ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大學的研究人員推出的,一個開源的用于理解和生成音樂的大型語言模型...
閱讀原文

EMO

EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參考圖像和語...
閱讀原文

StarCoder 2

StarCoder 2是由BigCode項目團隊開發的新一代大型代碼語言模型,旨在為代碼生成、編輯和推理任務提供強大的支持。該系列模型在前一代StarCoder模型的基礎上進...
閱讀原文

MeloTTS

MeloTTS 是一個由 MyShell AI 開發的開源的高質量多語言文本轉語音(TTS)庫,能夠將文本轉換成自然流暢的語音輸出,支持多種語言。MeloTTS 的語音合成速度非...
閱讀原文

Snap Video

Snap Video是由Snap公司的研究團隊開發的一個AI視頻生成模型,目標是通過文本描述來合成視頻,即用戶可以輸入一段描述性的文本,模型能夠根據這段文本生成相...
閱讀原文

LayerDiffusion

LayerDiffusion是由來自斯坦福大學的研究人員提出的一種利用大規模預訓練的潛在擴散模型生成透明圖像的技術,可以幫助用戶生成單個透明圖像或多個透明圖層。...
閱讀原文

TextDiffuser-2

Text-Diffuser 2是由來自微軟研究院、香港科技大學和中山大學的研究人員最新推出的一個基于擴散模型的文本渲染方法,旨在解決圖像擴散模型生成文字時在靈活性...
閱讀原文

UniEdit

UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架,允許用戶在不需要進行模型微調的情況下,對視頻的運動和外觀進行編輯,...
閱讀原文

DUSt3R

DUSt3R是由來自芬蘭阿爾托大學和Naver歐洲實驗室的研究人員推出的一個3D重建框架,旨在簡化從任意圖像集合中重建三維場景的過程,而無需事先了解相機校準或視...
閱讀原文

ScreenAI

ScreenAI是一個由谷歌的研究團隊推出的可讀屏AI視覺語言模型,專門設計用于理解和處理用戶界面(UI)和信息圖表。該模型基于PaLI架構結合了視覺和語言處理的...
閱讀原文

ResAdapter

ResAdapter是由字節跳動的研究人員推出的一種為擴散模型(如Stable Diffusion)設計的分辨率適配器,允許這些圖像生成模型生成具有任意分辨率和寬高比的圖像...
閱讀原文

AtomoVideo

AtomoVideo是由阿里巴巴的研究團隊提出的一個高保真圖像到視頻(I2V)生成框架,旨在從輸入的靜態圖像生成高質量的視頻內容。該框架能夠保持生成視頻與給定參...
閱讀原文