AI項目和框架

ORMBG

ORMBG是開源的AI圖像分割工具,由開發(fā)者schirrmacher在GitHub上發(fā)起。ORMBG專注于從圖片中準確去除背景,用先進的圖像處理技術(shù),實現(xiàn)對圖像中前景和背景的精...
閱讀原文

VITA

VITA是騰訊優(yōu)圖實驗室推出的全球首個開源多模態(tài)大語言模型(MLLM),能理解和處理視頻、圖像、文本和音頻?;贛ixtral 8×7B模型,擴展了中文詞匯量,進行了...
閱讀原文

CrewAI

CrewAI是專注于構(gòu)建多個 AI Agents 高效協(xié)作的開源平臺,通過簡化 AI Agents 框架的使用,企業(yè)能快速構(gòu)建和部署智能自動化解決方案。CrewAI平臺的核心優(yōu)勢在...
閱讀原文

Phi-3.5

Phi-3.5是微軟推出的新一代AI模型系列,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三個版本,分別針對輕量級推理、混合...
閱讀原文

MetaHuman-Stream

MetaHuman-Stream 是一項前沿的實時交互流式AI數(shù)字人技術(shù),集成了 ERNerf、MuseTalk、Wav2lip 等多種先進模型,支持聲音克隆和深度學習算法,確保對話流暢自...
閱讀原文

Roop

Roop 是開源的AI視頻換臉工具,Roop支持用戶通過一張圖片替換視頻中的面部,無需復雜的數(shù)據(jù)集或訓練過程。安裝和使用需要一定的技術(shù)技能,適合有一定基礎(chǔ)的用...
閱讀原文

ComfyUI-Bxb

ComfyUI-Bxb是“SD變現(xiàn)寶”,一鍵把 ComfyUI 工作流轉(zhuǎn)換成小程序,專為小程序開發(fā)者設計,實現(xiàn)快速變現(xiàn)。ComfyUI-Bxb的核心功能是將ComfyUI工作流轉(zhuǎn)換為微信小...
閱讀原文

MARS5-TTS

MARS5-TTS是CAMB.AI推出開源的AI聲音克隆工具,有突破性逼真的韻律,支持140多種語言支持。還能處理復雜韻律場景,如體育解說和動漫AI配音等。MARS5-TTS具有1...
閱讀原文

LanceDB

LanceDB 是一款專為人工智能應用設計的無服務器向量數(shù)據(jù)庫,支持向量搜索、全文搜索和SQL查詢,優(yōu)化了多模態(tài)數(shù)據(jù)處理。它采用向量索引技術(shù),實現(xiàn)高效相似度搜...
閱讀原文

Kotaemon

Kotaemon 是一款基于 RAG 技術(shù)的開源工具,支持用戶通過自然語言與文檔進行互動,快速檢索和理解信息。適合需要處理大量文檔的場合,如學術(shù)研究、企業(yè)文檔管...
閱讀原文

mPLUG-DocOwl2

mPLUG-DocOwl 2是由阿里巴巴通義實驗室mPLUG團隊推出的用于多頁文檔理解的多模態(tài)大型語言模型。在不依賴光學字符識別(OCR)技術(shù)的情況下,通過高分辨率文檔...
閱讀原文

QA-MDT

QA-MDT(Quality-aware Masked Diffusion Transformer)是由中國科學技術(shù)大學和科大訊飛聯(lián)合推出的開源音樂生成模型。模型基于文本描述生成高質(zhì)量且音樂性強...
閱讀原文

Animate Anyone

Animate Anyone是由阿里巴巴智能計算研究院推出的一款將靜態(tài)圖像中的角色或人物進行動態(tài)化的開源框架,該框架在擴散模型的基礎(chǔ)之上,引入了ReferenceNet、Pos...
閱讀原文

ReplaceAnything

ReplaceAnything是由阿里巴巴智能計算研究院推出的一款開源AI圖像內(nèi)容替換框架,利用先進的人工智能技術(shù),能夠?qū)崿F(xiàn)對照片或圖像中物體的智能替換。用戶可以通...
閱讀原文

Outfit Anyone

Outfit Anyone是由阿里巴巴智能計算研究院推出的一個高質(zhì)量服裝虛擬試穿的開源項目,借助該技術(shù),用戶或模特無需親自試穿衣服即可預覽上身效果。Outfit Anyon...
閱讀原文