AI項目和框架

Phi-3

Phi-3是微軟研究院推出的新一代系列先進的小語言模型,包括phi-3-mini、phi-3-small和phi-3-medium三個不同規模的版本。這些模型在保持較小的參數規模的同時...
閱讀原文

Hyper-SD

Hyper-SD是由字節跳動的研究人員推出的一種高效的圖像生成框架,通過軌跡分割一致性蒸餾(TSCD)技術,結合人類反饋學習和分數蒸餾,顯著提升了擴散模型在少...
閱讀原文

Arctic

Arctic是由云計算巨頭Snowflake的AI研究團隊開發的一款高效、開源的企業級大型語言模型,該大模型是一個擁有480億(480B)的參數規模,由128個細粒度的專家構...
閱讀原文

OpenELM

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數規模的版本。該大模型利用層...
閱讀原文

ID-Animator

ID-Animator是由來自騰訊光子工作室、中科大和中科院合肥物質科學研究院的研究人員推出的一種零樣本(zero-shot)人類視頻生成技術,能夠根據單張參考面部圖...
閱讀原文

IDM-VTON

IDM-VTON是由韓國科學技術院和OMNIOUS.AI的研究人員提出的一種先進的AI虛擬試穿技術,通過改進擴散模型來生成逼真的人物穿戴圖像,實現更真實的虛擬試穿效果。
閱讀原文

VideoGigaGAN

VideoGigaGAN是由Adobe和馬里蘭大學的研究人員提出的一種新型的生成式視頻超分辨率(VSR)模型,最高可將視頻分辨率提升8倍,將模糊的視頻放大為具有豐富細節...
閱讀原文

PuLID

PuLID是字節跳動的團隊開源的一種個性化文本到圖像生成技術,通過對比對齊和快速采樣方法,實現了無需調整模型的高效ID定制,輕松實現圖像換臉效果。
閱讀原文

IC-Light

IC-Light是一款由ControlNet作者張呂敏開發的AI圖像打光處理工具,可以對圖片進行光源操縱和光影重構,實現與不同背景的完美融合。用戶只需上傳圖片,選擇光...
閱讀原文

AniTalker

AniTalker是由來自上海交大X-LANCE實驗室和思必馳AISpeech的研究人員推出的一個對口型說話視頻生成框架,能夠將單張靜態人像和輸入的音頻轉換成栩栩如生的動...
閱讀原文

混元DiT

混元DiT(Hunyuan-DiT)是由騰訊混元團隊開發的一款高性能的文本到圖像的擴散Transformer模型,具備細粒度的中英文理解能力,能夠根據文本提示生成多分辨率的...
閱讀原文

Veo

Veo是由Google DeepMind開發的一款視頻生成模型,用戶可以通過文本、圖像或視頻提示來指導其生成所需的視頻內容,能夠生成時長超過一分鐘1080P分辨率的高質量...
閱讀原文

CogVLM2

CogVLM2是由智譜AI推出的新一代多模態大模型,在視覺和語言理解方面實現了顯著的性能提升,支持高達8K的文本長度和1344*1344分辨率的圖像輸入,具備強大的文...
閱讀原文

Universal-1

Universal-1是AI語音初創公司AssemblyAI推出的一款多語言語音識別和轉錄模型,經過超過1250萬小時的多語種音頻數據訓練,支持英語、西班牙語、法語和德語等。
閱讀原文

Codestral

Codestral是法國人工智能初創公司Mistral AI推出的一款代碼生成AI模型,專為提高軟件開發效率而設計,支持超過80種編程語言,包括但不限于Python、Java、C、C...
閱讀原文