AI項目和框架

FLUX.1

FLUX.1是由Stable Diffusion創始團隊推出的開源AI圖像生成模型，擁有12B參數，是迄今為止最大的文生圖模型。包含三種變體：頂級性能的FLUX.1 [pro]、開源非商...

閱讀原文

AI項目和框架

1年前 (2024)

Stable Fast 3D

Stable Fast 3D（SF3D）是Stability AI推出的一種創新3D網格重建技術，能在0.5秒內從單張圖片生成高質量的3D模型。Stable Fast 3D采用先進的Transformer網絡...

閱讀原文

AI項目和框架

1年前 (2024)

Tora

Tora是阿里推出的AI視頻生成框架，基于軌跡導向的擴散變換器（DiT）技術，將文本、視覺和軌跡條件融合，生成高質量且符合物理世界動態的視頻內容。Tora由軌跡...

閱讀原文

AI項目和框架

1年前 (2024)

Whisper-Medusa

Whisper-Medusa是aiOla推出的開源AI語音識別模型，結合了OpenAI的Whisper技術與aiOla的創新，Whisper-Medusa引入了多頭注意力機制，實現了并行處理，顯著提升...

閱讀原文

AI項目和框架

1年前 (2024)

FoleyCrafter

FoleyCrafter是上海人工智能實驗室和香港中文大學（深圳）共同推出的AI視頻配音框架，FoleyCrafter能自動聽出視頻中的動作，配上恰到好處的聲音效果。不管是...

閱讀原文

AI項目和框架

1年前 (2024)

MinerU

MinerU是上海人工智能實驗室OpenDataLab團隊推出的開源智能數據提取工具，專注于復雜PDF文檔的高效解析與提取。MinerU能將包含圖片、公式、表格等元素的多模...

閱讀原文

AI工具

1年前 (2024)

CogVideoX

CogVideoX是智譜AI最新推出的開源AI視頻生成模型，與智譜AI的商業產品“清影”同源。CogVideoX支持英文提示詞，能生成6秒長、每秒8幀、分辨率為720*480的視頻。...

閱讀原文

AI工具

1年前 (2024)

PhotoMaker V2

PhotoMaker V2是騰訊推出的AI圖像生成框架，能在極短的時間內生成逼真的人物照片。與初代相比，V2版本在角色的一致性和可控性上實現了顯著提升，用戶可以通過...

閱讀原文

AI項目和框架

1年前 (2024)

SEED-Story

SEED-Story是騰訊聯合香港科技大學、香港中文大學推出的多模態故事生成模型。基于多模態大語言模型（MLLM），能預測文本和視覺token，通過視覺de-tokenizer生...

閱讀原文

AI項目和框架

1年前 (2024)

FlashFace

FlashFace是阿里聯合香港大學推出的高保真AI寫真工具。能基于用戶提供的面部圖像和文本提示，快速生成個性化的高保真人像寫真圖。FlashFace具備高保真度身份...

閱讀原文

AI項目和框架

1年前 (2024)

EasyAnimate

EasyAnimate是阿里推出的AI視頻生成工具，支持文生視頻和圖生視頻兩種方式，用戶可以上傳圖片作為視頻的起始和結束畫面，實現更靈活的視頻編輯。EasyAnimate...

閱讀原文

AI工具

1年前 (2024)

EmoTalk3D

EmoTalk3D是華為諾亞方舟實驗室、南京大學和復旦大學共同推出的3D數字人框架。技術的核心在于能合成具有豐富情感表達的3D會說話頭像。EmoTalk3D能捕捉和再現...

閱讀原文

AI項目和框架

1年前 (2024)

SAM 2

SAM 2（Segment Anything Model 2）是Meta推出的AI對象分割模型，專注于實時圖像和視頻對象分割。具備零樣本泛化能力，能準確分割未知對象，并通過統一架構同...

閱讀原文

AI項目和框架

1年前 (2024)

Wordware

Wordware 是一個集成開發環境（IDE），可以讓任何人通過日常語言構建復雜的 AI Agent 和應用。用戶無需編程知識，就能利用預構建的工具和模型快速開發個性化...

閱讀原文

AI工具

1年前 (2024)

Qwen2-Math

Qwen2-Math是阿里通義千問推出的基于Qwen2語言模型構建的數學解題專用開源AI模型，專為解決復雜數學問題設計。經過數學專用語料庫的預訓練和指令微調，表現出...

閱讀原文

AI項目和框架

1年前 (2024)

1…121 122123124 125…155