AI項目和框架

EMOVA：華為諾亞方舟多模態處理模型全面提升智能交互與應用效率

EMOVA（EMotionally Omni-present Voice Assistant）是多模態全能模型，是香港科技大學、香港大學和華為諾亞方舟實驗室等機構共同推出的。EMOVA能處理圖像、...

閱讀原文

AI工具

12個月前

OminiControl：智能圖像生成框架實現主題與空間精確控制的創新解決方案

OminiControl是高度通用且參數高效的圖像生成框架，為擴散變換器模型如FLUX.1設計，實現對圖像生成過程的精細控制。OminiControl支持主題驅動控制和空間控制...

閱讀原文

AI工具

12個月前

Promptriever：智能家居助手提升生活質量的五大關鍵特點

Promptriever 是約翰斯·霍普金斯大學和Samaya AI聯合推出的新型檢索模型，能像語言模型一樣接受自然語言提示，用直觀的方式響應用戶的搜索需求。Promptriever...

閱讀原文

AI工具

12個月前

LongLLaVA：多模態上下文混合架構大語言模型的創新應用與特點解析

LongLLaVA是多模態大型語言模型（MLLM），基于混合架構結合Mamba和Transformer模塊，能高效處理大量圖像，特別擅長視頻理解和高分辨率圖像分析。LongLLaVA在...

閱讀原文

AI工具

12個月前

Devika AI：智能AI助手助力高效執行復雜任務

Devika AI是印度Stition AI團隊推出的開源AI軟件開發工具，能理解并執行復雜的人類指令，將其分解為步驟，進行研究和信息搜集，最終編寫代碼以實現目標。Devi...

閱讀原文

AI工具

12個月前

iDP3：革新3D視覺策略提升視覺體驗與精準度

iDP3（Improved 3D Diffusion Policy）是斯坦福大學聯合多所高校推出的3D視覺運動策略，能提升人形機器人在多樣化環境中的自主操作能力。與傳統3D策略不同，i...

閱讀原文

AI工具

12個月前

Proactive Agent：新一代主動式智能Agent交互體驗重塑您的數字生活

Proactive Agent是清華大學聯合面壁智能等團隊推出的新一代主動Agent交互范式，具備主動性，能預測用戶需求并在沒有直接指令的情況下采取行動。Proactive Ag...

閱讀原文

AI工具

12個月前

ShowUI：新加坡國立與微軟合作推出視覺語言操作模型實現高效GUI自動化

ShowUI是新加坡國立大學Show Lab和微軟共同推出的視覺-語言-行動模型，能提升圖形用戶界面（GUI）助手的工作效率。模型基于UI引導的視覺令牌選擇減少計算成本...

閱讀原文

AI工具

12個月前

NVLM：英偉達推出的多模態大型語言模型賦能跨領域智能交互與應用

NVLM是NVIDIA推出的前沿多模態大型語言模型（LLMs），在視覺-語言任務上達到與頂尖專有模型（如GPT-4o）和開放訪問模型（如Llama 3-V 405B和InternVL 2）相匹...

閱讀原文

AI工具

12個月前

SAM 2.1：Meta開源的先進視覺分割模型提升圖像處理精度與效率

SAM 2.1（全稱Segment Anything Model 2.1）是Meta（Facebook的母公司）推出的先進視覺分割模型，用于圖像和視頻。基于簡單的Transformer架構和流式記憶設計...

閱讀原文

AI工具

12個月前

Qwen2vl-Flux：多模態圖像生成模型賦能創意無限，支持多樣化生成模式

Qwen2VL-Flux是多模態圖像生成模型，結合Qwen2VL的視覺語言理解和FLUX框架，基于文本提示和圖像參考生成高質量的圖像。模型支持多種生成模式，包括變體生成、...

閱讀原文

AI工具

12個月前

Find3D：加州理工學院創新3D部件分割模型提升精確度與效率

Find3D是加州理工學院推出的3D部件分割模型，能根據任意文本查詢分割任意對象的任何部分。Find3D用一個強大的數據引擎自動從互聯網上的3D資產生成訓練數據，...

閱讀原文

AI工具

12個月前

Sketch2Lineart：將手繪草圖瞬間轉化為精美線條畫的智能工具

Sketch2Lineart是基于人工智能的繪畫工具，能將簡單的手繪草圖轉換成清晰的線條畫。通過自動生成草圖描述并據此繪制線條畫，支持調整細節適應不同風格。用戶...

閱讀原文

AI工具

12個月前

Fancy123：創新3D網格生成技術實現高效建模與精準細節捕捉

Fancy123是華中科技大學和華南理工大學推出的3D網格生成技術，基于即插即用的變形技術從單張圖片生成高質量的3D網格。該方法包含兩個增強模塊和反投影操作，...

閱讀原文

AI工具

12個月前

Mooncake：創新推理架構推動大模型智能應用的新時代

Mooncake是月之暗面Kimi聯合清華大學等機構共同開源的大模型推理架構。采用以KVCache為中心的分布式架構，通過分離預填充和解碼集群，充分利用GPU集群中未充...

閱讀原文

AI工具

12個月前

1…103 104105106 107…156