AI項目和框架

InternVideo2.5

InternVideo2.5是上海人工智能實驗室聯合南京大學、中科院深圳先進技術研究院共同開源的視頻多模態大模型。在視頻理解領域取得了顯著進展,特別是在長視頻處...
閱讀原文

YAYI-Ultra

YAYI-Ultra 是中科聞歌研發的企業級大語言模型的旗艦版本,具備強大的多領域專業能力和多模態內容生成能力。支持數學、代碼、金融、輿情、中醫、安全等多個領...
閱讀原文

HUGWBC

HUGWBC(Humanoid Unified and General Whole-Body Controller)是上海交通大學、上海AI Lab聯合推出的人形機器人全身控制器,能實現精細的運動控制。HUGWBC...
閱讀原文

VideoCaptioner

VideoCaptioner(中文名:卡卡字幕助手)是基于大語言模型(LLM)的智能字幕處理工具,能簡化視頻字幕的生成與優化流程。VideoCaptioner支持語音識別、字幕斷...
閱讀原文

Zonos-v0.1

Zonos-v0.1是Zyphra推出的高保真文本到語音(TTS)模型。Zonos-v0.1包含兩個模型:16億參數的Transformer模型和SSM混合模型,均在Apache 2.0許可下開源。Zono...
閱讀原文

InspireMusic

InspireMusic 是阿里巴巴通義實驗室開源的音樂生成技術,通過人工智能為用戶生成高質量的音樂作品。基于多模態大模型技術,支持通過簡單的文字描述或音頻提示...
閱讀原文

Goku

Goku是香港大學和字節跳動聯合發布的最新視頻生成模型,專為圖像和視頻的聯合生成設計。基于先進的rectified flow Transformer框架,支持文生視頻、圖生視頻...
閱讀原文

Satori

Satori 是 MIT、哈佛大學等機構研究者推出的 7B 參數的大型語言模型,專注于提升推理能力。基于Qwen-2.5-Math-7B,Satori通過小規模的格式微調和大規模的增強...
閱讀原文

ACE++

ACE++是阿里巴巴通義實驗室推出的先進的圖像生成與編輯工具,通過指令化和上下文感知的內容填充技術,實現了高質量的圖像創作和編輯功能。
閱讀原文

LLaVA-Rad

LLaVA-Rad是微軟研究院推出的小型多模態模型,專注于臨床放射學報告生成。是LLaVA-Med項目的分支,特別是胸部X光(CXR)成像。基于LLaVA-Med的基礎架構和訓練...
閱讀原文

MotionCanvas

MotionCanvas是香港中文大學、Adobe 研究院和莫納什大學推出的圖像到視頻(I2V)生成方法,能將靜態圖像轉化為具有豐富動態效果的視頻。MotionCanvas基于引入...
閱讀原文

MedRAX

MedRAX(Medical Reasoning Agent for Chest X-ray)是專門用于胸部X光檢查的醫學推理AI代理。通過整合最先進的胸部X光分析工具和多模態大型語言模型,形成一...
閱讀原文

LangBot

LangBot 是開源的即時聊天機器人平臺,支持多平臺(如 QQ、微信、飛書、Discord 等)和多種大語言模型(如 ChatGPT、DeepSeek、Gemini 等)。LangBot具備多模...
閱讀原文

LLMDet

LLMDet是阿里巴巴集團通義實驗室、中山大學計算機科學與工程學院、鵬城實驗室等機構推出的開放詞匯目標檢測器,基于與大型語言模型(LLM)協同訓練提升目標檢...
閱讀原文

VisoMaster

VisoMaster 是基于 AI 技術的換臉和編輯軟件,功能強大操作簡便。支持圖片、視頻以及直播換臉,能生成自然逼真的換臉效果,應用于娛樂、影視制作等領域。支持...
閱讀原文
16667686970146