AI項目和框架

Embed3

Embed3是Cohere公司推出的行業領先的多模態AI搜索模型,能從文本和圖像生成嵌入向量,幫助企業快速準確地搜索復雜報告、產品目錄和設計文件等多模態資產。Emb...
閱讀原文

DriveDreamer4D

DriveDreamer4D是用在提升自動駕駛場景4D重建質量的框架,基于世界模型先驗增強4D駕駛場景的表示。框架能基于真實世界的駕駛數據合成新的軌跡視頻,用明確結...
閱讀原文

Animate-X

Animate-X是基于LDM的通用動畫框架,能將靜態圖像轉化為動態視頻,擅長處理擬人化角色。 通過引入姿勢指示器,增強了對運動模式的捕捉能力,包括隱式和顯式運...
閱讀原文

MarDini

MarDini是新型的視頻擴散模型,融合掩碼自回歸(MAR)和擴散模型(DM)的優勢,用在大規模視頻生成。模型能處理任意數量和位置的掩碼幀,支持視頻插值、圖像...
閱讀原文

SDXL-EcomID

SDXL-EcomID是阿里媽媽推出的開源項目,從單個參考圖像生成定制的個性圖像。融合PuLID和InstantID的優點,優化背景一致性、面部關鍵點控制和面部真實性,提高...
閱讀原文

DreamClear

DreamClear是中國科學院自動化研究所和字節跳動團隊聯合推出的高性能圖像修復技術,專注于隱私安全的數據集管理,能將低質量(LQ)圖像恢復為高質量(HQ)圖像。
閱讀原文

GitHub Spark

GitHub Spark是GitHub推出的AI編程工具,支持GPT-4o、Claude Sonnet 3.5等四款編程模型。用戶無需任何代碼和部署環境,基于自然語言描述需求,能在桌面或移動...
閱讀原文

SimpleQA

SimpleQA是OpenAI推出的基準測試,用在評估大型語言模型回答簡短、尋求事實問題的能力。SimpleQA包含4326個問題,每個問題設計為只有一個正確答案,易于評分”...
閱讀原文

VtripGPT

VtripGPT是視旅科技推出的專注于旅游領域的AI大模型,基于深度合成服務為旅游對話生成提供智能支持。模型基于Transformer架構,結合旅游行業數據和常規知識進...
閱讀原文

D-Edit

D-Edit是基于圖像和文本的多功能圖像編輯框架,基于預訓練的擴散模型和獨特的提示(prompts)實現對圖像中特定項目的精確控制和編輯。框架能處理包括基于圖像...
閱讀原文

PromptFix

PromptFix是微軟開發的開源AI圖像修復工具,基于擴散模型技術,能根據用戶指令處理損壞的圖片,移除不需要的元素。PromptFix支持多種圖像處理任務,包括上色...
閱讀原文

Red_Panda

Red_Panda 是 Recraft V3 在發布初期使用的化名,是Recraft AI推出的先進AI圖像生成模型,以卓越的性能在圖像生成領域樹立新標準。在Hugging Face的Text-to-I...
閱讀原文

Show-o

Show-o是集成了多模態理解和生成的統一Transformer模型。通過結合自回歸和離散擴散建模,能靈活處理包括視覺問答、文本到圖像生成、文本引導的修復和擴展,混...
閱讀原文

MimicTalk

MimicTalk是浙江大學和字節跳動共同研發推出的,基于NeRF(神經輻射場)技術,能在極短的時間內,僅需15分鐘訓練出個性化和富有表現力的3D說話人臉模型。Mimi...
閱讀原文

Wonder Animation

Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的創新 AI 技術,Wonder Animation測試版現已上線Wonder Studio。Wonder Animation基于 Video to 3D...
閱讀原文