AI項目和框架

LLaVA-Rad

LLaVA-Rad是微軟研究院推出的小型多模態模型,專注于臨床放射學報告生成。是LLaVA-Med項目的分支,特別是胸部X光(CXR)成像。基于LLaVA-Med的基礎架構和訓練...
閱讀原文

MotionCanvas

MotionCanvas是香港中文大學、Adobe 研究院和莫納什大學推出的圖像到視頻(I2V)生成方法,能將靜態圖像轉化為具有豐富動態效果的視頻。MotionCanvas基于引入...
閱讀原文

MedRAX

MedRAX(Medical Reasoning Agent for Chest X-ray)是專門用于胸部X光檢查的醫學推理AI代理。通過整合最先進的胸部X光分析工具和多模態大型語言模型,形成一...
閱讀原文

LangBot

LangBot 是開源的即時聊天機器人平臺,支持多平臺(如 QQ、微信、飛書、Discord 等)和多種大語言模型(如 ChatGPT、DeepSeek、Gemini 等)。LangBot具備多模...
閱讀原文

LLMDet

LLMDet是阿里巴巴集團通義實驗室、中山大學計算機科學與工程學院、鵬城實驗室等機構推出的開放詞匯目標檢測器,基于與大型語言模型(LLM)協同訓練提升目標檢...
閱讀原文

VisoMaster

VisoMaster 是基于 AI 技術的換臉和編輯軟件,功能強大操作簡便。支持圖片、視頻以及直播換臉,能生成自然逼真的換臉效果,應用于娛樂、影視制作等領域。支持...
閱讀原文

FlashVideo

FlashVideo是字節跳動團隊提出的高效的高分辨率視頻生成框架,通過兩階段方法解決了傳統單階段擴散模型在高分辨率視頻生成中面臨的巨大計算成本問題。在第一...
閱讀原文

DynVFX

DynVFX是創新的視頻增強技術,能根據簡單的文本指令將動態內容無縫集成到真實視頻中。通過結合預訓練的文本到視頻擴散模型和視覺語言模型(VLM),實現了在不...
閱讀原文

WorldSense

WorldSense是小紅書和上海交通大學推出的,用在評估多模態大型語言模型(MLLMs)在現實世界場景中對視覺、聽覺和文本輸入的綜合理解能力的基準測試。WorldSen...
閱讀原文

Airweave

Airweave 是開源工具,能將任何應用程序的數據(包括API、數據庫、網站等)同步到圖數據庫和向量數據庫中,讓數據能基于智能代理或搜索機制進行檢索。Airweav...
閱讀原文

FireRedASR

FireRedASR 是小紅書開源的工業級自動語音識別(ASR)模型家族,支持普通話、中文方言和英語,在普通話 ASR 基準測試中達到了新的最佳水平(SOTA),在歌詞識...
閱讀原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微軟研究院、劍橋大學語言技術實驗室、中國科學院自動化研究所推出的新型多模態推理范式,基于生成圖像可視化...
閱讀原文

HMA

HMA(Heterogeneous Masked Autoregression)是麻省理工學院、Meta和伊利諾伊大學香檳分校開源的,用在建模機器人動作視頻動態的方法。HMA基于異構預訓練,用...
閱讀原文

鯨噴 DeepRant

DeepRant(中文名:鯨噴)是專為游戲玩家設計的多語言快捷翻譯工具。DeepRant能夠幫助玩家在國際服務器中快速進行文字交流,消除語言障礙。玩家在游戲中選中...
閱讀原文

StochSync

StochSync(Stochastic Diffusion Synchronization)是創新的圖像生成技術,專門用于在復雜空間(如360°全景圖或3D表面紋理)中生成高質量圖像。結合了擴散同...
閱讀原文
17677787980155