AI項目和框架

D-Edit

D-Edit是基于圖像和文本的多功能圖像編輯框架,基于預訓練的擴散模型和獨特的提示(prompts)實現對圖像中特定項目的精確控制和編輯。框架能處理包括基于圖像...
閱讀原文

PromptFix

PromptFix是微軟開發的開源AI圖像修復工具,基于擴散模型技術,能根據用戶指令處理損壞的圖片,移除不需要的元素。PromptFix支持多種圖像處理任務,包括上色...
閱讀原文

Red_Panda

Red_Panda 是 Recraft V3 在發布初期使用的化名,是Recraft AI推出的先進AI圖像生成模型,以卓越的性能在圖像生成領域樹立新標準。在Hugging Face的Text-to-I...
閱讀原文

Show-o

Show-o是集成了多模態理解和生成的統一Transformer模型。通過結合自回歸和離散擴散建模,能靈活處理包括視覺問答、文本到圖像生成、文本引導的修復和擴展,混...
閱讀原文

MimicTalk

MimicTalk是浙江大學和字節跳動共同研發推出的,基于NeRF(神經輻射場)技術,能在極短的時間內,僅需15分鐘訓練出個性化和富有表現力的3D說話人臉模型。Mimi...
閱讀原文

Wonder Animation

Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的創新 AI 技術,Wonder Animation測試版現已上線Wonder Studio。Wonder Animation基于 Video to 3D...
閱讀原文

TimeSuite

TimeSuite是上海AI Lab推出的新型框架,能提升多模態大型語言模型(MLLMs)在長視頻理解任務中的表現。基于引入高效的長視頻處理框架、高質量的視頻數據集Tim...
閱讀原文

EMMA

EMMA是Waymo基于Gemini模型推出的端到端自動駕駛多模態模型,能將原始相機傳感器數據直接映射到駕駛特定輸出,如規劃軌跡、感知對象和道路圖元素。EMMA將非傳...
閱讀原文

DreamVideo-2

DreamVideo-2是創新的零樣本視頻定制框架,是復旦大學和阿里巴巴集團等機構聯合推出。DreamVideo-2能根據單一圖像和界定框序列生成具有特定主題和精確運動軌...
閱讀原文

NotebookMLX

NotebookMLX是開源版本的NotebookLM,集成NotebookLlama的功能,能將PDF文檔轉換成易于理解和分享的音頻播客形式。項目基于MLX技術實現自然語言處理功能,包...
閱讀原文

HOVER

HOVER是英偉達推出的1.5M小模型,全稱為“Humanoid Versatile Controller”,即人形機器人的多功能全身神經通用控制器。模型用150萬參數實現對機器人復雜動作的...
閱讀原文

Voice Changer

Voice Changer是Cartesia推出的新模型,能將任何音頻剪輯的語音轉換成其他音色,且保留原始音頻的情感和表達。用戶從Cartesia提供的多種高質量聲音庫中選擇,...
閱讀原文

Oasis

Oasis是世界上首款AI實時生成的游戲,由Decart和Etched聯合推出。游戲能以每秒20幀的速度實時渲染交互式視頻內容,無需游戲引擎,通過AI模型直接生成。玩家可...
閱讀原文

夸克靈知大模型

夸克靈知是夸克公司全新推出的智能學習學習大模型,具備博士生級別的推理能力。基于AI技術為用戶提供分步驟題目講解,能隨時回答問題。在考研數學等題目的正...
閱讀原文

OSAID 1.0

OSAID 1.0(The Open Source AI Definition – 1.0)是Open Source Initiative(OSI)發布的官方標準,用在明確AI系統成為開放源代碼的條件。參與制定OSAID 1....
閱讀原文