AI項目和框架

Diffusion Self-Distillation:斯坦福大學創新零樣本定制圖像生成技術助力個性化創作

Diffusion Self-Distillation(DSD)是創新的零樣本定制圖像生成技術,用預訓練的文本到圖像擴散模型自動生成數據集,并將其微調為能進行文本條件的圖像到圖...
閱讀原文

Talker-Reasoner:雙思維AI代理架構:智能決策與自我學習的完美結合

Talker-Reasoner是谷歌DeepMind推出的AI代理架構,借鑒人類的認知理論,將代理分為兩個模塊:Talker和Reasoner。Talker模擬人類的快速直覺思維(System 1),...
閱讀原文

Devika:智能編程助手助你輕松實現復雜指令的自動化執行

Devika是開源的AI編程助手,能理解并拆分復雜指令,基于集成AI搜索和網頁瀏覽能力搜集信息,編寫代碼實現目標。Devika支持多種AI模型,具備高級規劃推理能力...
閱讀原文

EMOVA:華為諾亞方舟多模態處理模型全面提升智能交互與應用效率

EMOVA(EMotionally Omni-present Voice Assistant)是多模態全能模型,是香港科技大學、香港大學和華為諾亞方舟實驗室等機構共同推出的。EMOVA能處理圖像、...
閱讀原文

OminiControl:智能圖像生成框架實現主題與空間精確控制的創新解決方案

OminiControl是高度通用且參數高效的圖像生成框架,為擴散變換器模型如FLUX.1設計,實現對圖像生成過程的精細控制。OminiControl支持主題驅動控制和空間控制...
閱讀原文

Promptriever:智能家居助手提升生活質量的五大關鍵特點

Promptriever 是約翰斯·霍普金斯大學和Samaya AI聯合推出的新型檢索模型,能像語言模型一樣接受自然語言提示,用直觀的方式響應用戶的搜索需求。Promptriever...
閱讀原文

LongLLaVA:多模態上下文混合架構大語言模型的創新應用與特點解析

LongLLaVA是多模態大型語言模型(MLLM),基于混合架構結合Mamba和Transformer模塊,能高效處理大量圖像,特別擅長視頻理解和高分辨率圖像分析。LongLLaVA在...
閱讀原文

Devika AI:智能AI助手助力高效執行復雜任務

Devika AI是印度Stition AI團隊推出的開源AI軟件開發工具,能理解并執行復雜的人類指令,將其分解為步驟,進行研究和信息搜集,最終編寫代碼以實現目標。Devi...
閱讀原文

iDP3:革新3D視覺策略提升視覺體驗與精準度

iDP3(Improved 3D Diffusion Policy)是斯坦福大學聯合多所高校推出的3D視覺運動策略,能提升人形機器人在多樣化環境中的自主操作能力。與傳統3D策略不同,i...
閱讀原文

Proactive Agent:新一代主動式智能Agent交互體驗重塑您的數字生活

Proactive Agent是清華大學聯合面壁智能等團隊推出的新一代主動Agent交互范式 ,具備主動性,能預測用戶需求并在沒有直接指令的情況下采取行動。Proactive Ag...
閱讀原文

ShowUI:新加坡國立與微軟合作推出視覺語言操作模型實現高效GUI自動化

ShowUI是新加坡國立大學Show Lab和微軟共同推出的視覺-語言-行動模型,能提升圖形用戶界面(GUI)助手的工作效率。模型基于UI引導的視覺令牌選擇減少計算成本...
閱讀原文

NVLM:英偉達推出的多模態大型語言模型賦能跨領域智能交互與應用

NVLM是NVIDIA推出的前沿多模態大型語言模型(LLMs),在視覺-語言任務上達到與頂尖專有模型(如GPT-4o)和開放訪問模型(如Llama 3-V 405B和InternVL 2)相匹...
閱讀原文

SAM 2.1:Meta開源的先進視覺分割模型提升圖像處理精度與效率

SAM 2.1(全稱Segment Anything Model 2.1)是Meta(Facebook的母公司)推出的先進視覺分割模型,用于圖像和視頻。基于簡單的Transformer架構和流式記憶設計...
閱讀原文

Qwen2vl-Flux:多模態圖像生成模型賦能創意無限,支持多樣化生成模式

Qwen2VL-Flux是多模態圖像生成模型,結合Qwen2VL的視覺語言理解和FLUX框架,基于文本提示和圖像參考生成高質量的圖像。模型支持多種生成模式,包括變體生成、...
閱讀原文

Find3D:加州理工學院創新3D部件分割模型提升精確度與效率

Find3D是加州理工學院推出的3D部件分割模型,能根據任意文本查詢分割任意對象的任何部分。Find3D用一個強大的數據引擎自動從互聯網上的3D資產生成訓練數據,...
閱讀原文
19394959697146