AI項目和框架

Phi-3

Phi-3是微軟研究院推出的新一代系列先進的小語言模型，包括phi-3-mini、phi-3-small和phi-3-medium三個不同規模的版本。這些模型在保持較小的參數規模的同時...

閱讀原文

AI工具

1年前 (2024)

Hyper-SD

Hyper-SD是由字節跳動的研究人員推出的一種高效的圖像生成框架，通過軌跡分割一致性蒸餾（TSCD）技術，結合人類反饋學習和分數蒸餾，顯著提升了擴散模型在少...

閱讀原文

AI工具

1年前 (2024)

Arctic

Arctic是由云計算巨頭Snowflake的AI研究團隊開發的一款高效、開源的企業級大型語言模型，該大模型是一個擁有480億（480B）的參數規模，由128個細粒度的專家構...

閱讀原文

AI工具

1年前 (2024)

OpenELM

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型，包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數規模的版本。該大模型利用層...

閱讀原文

AI工具

1年前 (2024)

ID-Animator

ID-Animator是由來自騰訊光子工作室、中科大和中科院合肥物質科學研究院的研究人員推出的一種零樣本（zero-shot）人類視頻生成技術，能夠根據單張參考面部圖...

閱讀原文

AI工具

1年前 (2024)

IDM-VTON

IDM-VTON是由韓國科學技術院和OMNIOUS.AI的研究人員提出的一種先進的AI虛擬試穿技術，通過改進擴散模型來生成逼真的人物穿戴圖像，實現更真實的虛擬試穿效果。

閱讀原文

AI工具

1年前 (2024)

VideoGigaGAN

VideoGigaGAN是由Adobe和馬里蘭大學的研究人員提出的一種新型的生成式視頻超分辨率（VSR）模型，最高可將視頻分辨率提升8倍，將模糊的視頻放大為具有豐富細節...

閱讀原文

AI工具

1年前 (2024)

PuLID

PuLID是字節跳動的團隊開源的一種個性化文本到圖像生成技術，通過對比對齊和快速采樣方法，實現了無需調整模型的高效ID定制，輕松實現圖像換臉效果。

閱讀原文

AI工具

1年前 (2024)

IC-Light

IC-Light是一款由ControlNet作者張呂敏開發的AI圖像打光處理工具，可以對圖片進行光源操縱和光影重構，實現與不同背景的完美融合。用戶只需上傳圖片，選擇光...

閱讀原文

AI工具

1年前 (2024)

AniTalker

AniTalker是由來自上海交大X-LANCE實驗室和思必馳AISpeech的研究人員推出的一個對口型說話視頻生成框架，能夠將單張靜態人像和輸入的音頻轉換成栩栩如生的動...

閱讀原文

AI工具

1年前 (2024)

混元DiT

混元DiT（Hunyuan-DiT）是由騰訊混元團隊開發的一款高性能的文本到圖像的擴散Transformer模型，具備細粒度的中英文理解能力，能夠根據文本提示生成多分辨率的...

閱讀原文

AI工具

1年前 (2024)

Veo

Veo是由Google DeepMind開發的一款視頻生成模型，用戶可以通過文本、圖像或視頻提示來指導其生成所需的視頻內容，能夠生成時長超過一分鐘1080P分辨率的高質量...

閱讀原文

AI工具

1年前 (2024)

CogVLM2

CogVLM2是由智譜AI推出的新一代多模態大模型，在視覺和語言理解方面實現了顯著的性能提升，支持高達8K的文本長度和1344*1344分辨率的圖像輸入，具備強大的文...

閱讀原文

AI工具

1年前 (2024)

Universal-1

Universal-1是AI語音初創公司AssemblyAI推出的一款多語言語音識別和轉錄模型，經過超過1250萬小時的多語種音頻數據訓練，支持英語、西班牙語、法語和德語等。

閱讀原文

AI工具

1年前 (2024)

Codestral

Codestral是法國人工智能初創公司Mistral AI推出的一款代碼生成AI模型，專為提高軟件開發效率而設計，支持超過80種編程語言，包括但不限于Python、Java、C、C...

閱讀原文

AI工具

1年前 (2024)

1…118 119120121 122…155