AI項目和框架

Champ

Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基于3D的將人物圖片轉換為視頻動畫的模型,該方法結合了3D參數化模型(特別是SMPL模型)和潛...
閱讀原文

Jamba

Jamba是由AI21 Labs推出的首個基于Mamba架構的生產級別的大語言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 結構。而 Jamba 結...
閱讀原文

Voice Engine

Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
閱讀原文

SWE-agent

SWE-agent是一個由普林斯頓大學NLP組研究人員開發的開源AI程序員和軟件工程師系統,利用大型語言模型(如GPT-4)的能力,可以自動解決GitHub存儲庫中的問題。...
閱讀原文

DreaMoving

DreaMoving是一個基于擴散模型的人類視頻生成框架,由阿里巴巴集團的研究團隊開發。DreaMoving通過視頻控制網絡和內容引導器實現對人物動作和外觀的精確控制...
閱讀原文

AniPortrait

AniPortrait是一個由騰訊開源的照片對口型視頻生成框架,類似于此前阿里推出的EMO,能夠通過音頻和一張參考肖像圖片生成高質量的動畫。
閱讀原文

InstantStyle

InstantStyle是小紅書的InstantX團隊開源的保留風格一致性的個性化文本到圖像生成框架,旨在解決文本到圖像生成中的一個關鍵問題:如何在保持風格一致性的同...
閱讀原文

DesignEdit

DesignEdit是由微軟亞洲研究院和北京大學的研究團隊共同開發的一個AI圖像編輯框架,引入了設計領域的圖層概念,采用多層潛在分解和融合的技術,實現了無需額...
閱讀原文

CodeGemma

CodeGemma是由Google發布的專注于代碼生成和理解的大型語言模型,該系列包含三種不同規模的模型,分別是2B預訓練模型、7B預訓練模型和7B指令微調模型,旨在提...
閱讀原文

Parler-TTS

Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等),生成高質量、聽...
閱讀原文

VASA-1

VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換為對口型動態視頻的生成框架,能夠根據單張靜態人臉照片和一段語音音頻,實時生成逼真的3D說話面部動畫。
閱讀原文

Llama 3

Llama 3是Meta公司最新開源推出的新一代大型語言模型(LLM),包含8B和70B兩種參數規模的模型,標志著開源人工智能領域的又一重大進步。作為Llama系列的第三...
閱讀原文

FunClip

FunClip是阿里達摩院推出的一款完全開源、本地部署的自動化視頻剪輯工具,通過調用阿里巴巴通義實驗室的FunASR Paraformer系列模型實現視頻的自動化語音識別...
閱讀原文

Phi-3

Phi-3是微軟研究院推出的新一代系列先進的小語言模型,包括phi-3-mini、phi-3-small和phi-3-medium三個不同規模的版本。這些模型在保持較小的參數規模的同時...
閱讀原文

Hyper-SD

Hyper-SD是由字節跳動的研究人員推出的一種高效的圖像生成框架,通過軌跡分割一致性蒸餾(TSCD)技術,結合人類反饋學習和分數蒸餾,顯著提升了擴散模型在少...
閱讀原文