AI項目和框架
Agent K v1.0:全新端到端自主數據科學智能體助力智能決策與數據分析優化
Agent K v1.0 是華為諾亞方舟實驗室與倫敦大學學院團隊聯合推出的端到端自主數據科學智能體,能自動化、優化和泛化處理多種數據科學任務。Agent K v1.0基于結...
Pixtral Large:Mistral AI推出的超大多模態模型實現先進的文本與視覺理解能力
Pixtral Large是法國Mistral AI開源的1240億參數超大多模態模型,具備前沿級圖像理解能力,支持128K上下文,能理解文本、圖表和圖像。Pixtral Large基于Mistr...
Qwen2.5-Turbo:超高上下文理解能力的長文本模型實現1M tokens支持,助力智能文本生成與分析
Qwen2.5-Turbo是阿里推出的先進語言模型,將上下文長度從 128k 擴展到了 1M ,相當于100萬個英文單詞或150萬個漢字。擴展讓模型能處理更長的文本,如長篇小說...
LLaVA-o1:開源視覺語言模型助力智能理解與生成內容
LLaVA-o1是北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院以及理海大學(Lehigh University)組成的研究團隊推出的開源視覺語言模型,基于Llama-3.2-Vision...
PixelWave Flux:FLUX.1-dev模型微調版賦能創意圖像生成的全新可能
PixelWave Flux.1-dev 03是基于FLUX.1-dev模型在NVIDIA 4090上微調的AI圖像生成模型,有卓越的模型泛化能力,模型在處理多種藝術風格、攝影和動漫圖像方面表...
Computer Use OOTB:基于Claude 3.5 API的開源GUI框架實現高效遠程控制解決方案
Computer Use OOTB是開源的GUI 框架,基于Claude 3.5 Computer Use API實現對計算機的自動化控制。框架支持跨平臺操作,用戶在Windows和macOS系統上能輕松部...
Fireworks f1:復合AI模型融合多元開源技術以應對復雜推理挑戰
Fireworks f1是Fireworks公司推出的復合AI模型,針對復雜推理任務設計。基于在推理層融合多個開放模型,實現超越單一模型的性能和可靠性。f1模型支持開發者用...
AgileGen:智能代碼自動生成與原型設計的創新解決方案
AgileGen是生成式軟件開發框架,通過人與AI協作增強軟件的創建過程。AgileGen包含兩個核心部分:終端用戶決策制定和AgileGen智能體。框架用Gherkin語言設計和...
OmniSearch:多模態智能檢索與生成技術的全面升級
OmniSearch是阿里巴巴通義實驗室推出的多模態檢索增強生成框架,具備自適應規劃能力。OmniSearch能動態拆解復雜問題,根據檢索結果和問題情境調整檢索策略,...
Perplexica:智能開源AI搜索引擎實現多模式搜索與實時信息更新
Perplexica是開源的AI驅動搜索引擎,是Perplexity AI的開源替代品。基于機器學習算法和自然語言處理技術理解用戶查詢,提供精確答案。Perplexica支持多種搜索...
Memoripy:智能記憶管理庫助力上下文感知的AI應用開發
Memoripy是一個Python庫,為AI應用提供上下文感知的記憶管理。Memoripy支持短期和長期記憶存儲,兼容OpenAI和Ollama API。核心功能包括記憶檢索、概念提取、...
AnimateAnything:創新統一可控視頻生成技術提升內容創作效率
AnimateAnything是浙江大學和北京航空航天大學研究者推出的統一可控視頻生成技術。AnimateAnything能精確操作視頻,包括控制相機軌跡、文本提示和用戶動作注...
RAG-Diffusion:區域感知文本到圖像生成技術的創新應用與優勢分析
RAG-Diffusion是南京大學團隊推出的區域感知文本到圖像生成方法。基于區域硬綁定和區域軟細化兩個階段,實現對圖像中各個區域的精確控制和細節優化。RAG-Diff...
FitDiT:騰訊與復旦攜手打造的高保真虛擬試穿技術實現無縫體驗與精準匹配
FitDiT是高保真虛擬試穿技術,是騰訊和復旦大學聯合推出的。基于Diffusion Transformers(DiT)關注高分辨率特征,提升服裝細節的呈現。FitDiT用服裝紋理提取...
Documind:高效PDF轉圖像工具助力結構化數據提取
Documind是開源的AI文檔處理工具,能從PDF文檔中提取結構化數據。Documind具備將PDF轉換為圖像、用OpenAI API進行信息提取,根據用戶定義的模式格式化輸出結...
粵公網安備 44011502001135號