AI項目和框架

GLM-4.1V-Thinking

GLM-4.1V-Thinking是智譜AI推出的開源視覺語言模型,專為復雜認知任務設計,支持圖像、視頻、文檔等多模態輸入。模型在GLM-4V架構基礎上引入思維鏈推理機制,...
閱讀原文

BlenderFusion

BlenderFusion是Google DeepMind推出的生成式視覺合成框架,將傳統的 3D 編輯軟件(Blender)與AI 模型相結合,實現精準的幾何編輯和多樣的視覺合成。
閱讀原文

ML-Master

ML-Master是上海交通大學人工智能學院Agents團隊推出ML-Master - 上海交大推出的AI專家Agent的AI專家智能體。在OpenAI的權威基準測試MLE-bench中表現出色,以...
閱讀原文

ThinkSound

ThinkSound是阿里通義語音團隊推出的首個CoT(鏈式思考)音頻生成模型,用在視頻配音,為每一幀畫面生成專屬匹配音效。模型引入CoT推理,解決傳統技術難以捕...
閱讀原文

MAI-DxO

MAI-DxO(Microsoft AI Diagnostic Orchestrator)是微軟推出的先進人工智能系統,能提升醫療診斷的準確性和效率。基于模擬一組具有不同診斷方法的虛擬醫生協...
閱讀原文

RecGPT

RecGPT是淘天集團推出的百億參數推薦大模型?,F已全面接入手機淘寶首屏“猜你喜歡”信息流,基于融合多模態認知、用戶行為分析及實時熱點理解,精準捕捉用戶長...
閱讀原文

XVerse

XVerse是字節跳動智能創作團隊推出的新型多主體控制圖像生成模型。模型在文本到圖像生成領域實現對多個主體身份和語義屬性(如姿勢、風格、光照)的精細控制...
閱讀原文

Qwen-TTS

Qwen-TTS是阿里通義推出的語音合成模型,具備自然、穩定、快速的特點。模型能根據文本和音色參數輸出高質量音頻,支持中英文及方言合成,如北京話、上海話、...
閱讀原文

Speakr

Speakr是開源免費的AI會議助手,支持確保數據絕對私密的前提下,自動化完成會議錄音轉寫、內容摘要提煉與智能問答。Speakr無需聯網就能運行,所有數據處理均...
閱讀原文

Deep Video Discovery

Deep Video Discovery(DVD)是微軟推出的深度視頻探索智能體,專為理解和分析長視頻設計。Deep Video Discovery將長視頻分割成多個較短的片段,基于大型語言...
閱讀原文

FairyGen

FairyGen 是大灣區大學推出的動畫故事視頻生成框架,支持從單個手繪角色草圖出發,生成具有連貫敘事和一致風格的動畫故事視頻。框架借助多模態大型語言模型(...
閱讀原文

WorldVLA

WorldVLA是阿里巴巴達摩院和浙江大學聯合推出的自回歸動作世界模型,模型將視覺-語言-動作(VLA)模型與世界模型整合到一個單一框架中。模型基于動作和圖像理...
閱讀原文

AnimaX

AnimaX是北京航空航天大學聯合清華大學、香港大學等推出的高效3D動畫生成框架,將視頻擴散模型的動作先驗與基于骨骼的動畫結構相結合??蚣苣軐⒁曨l中的動作...
閱讀原文

Ovis-U1

Ovis-U1是阿里巴巴集團Ovis團隊推出的多模態統一模型,擁有30億參數。模型集成多模態理解、文本到圖像生成和圖像編輯三種核心能力,基于先進的架構和協同統一...
閱讀原文

OAgents

OAgents 是OPPO PersonalAI Lab推出的開源基礎Agent框架??蚣芑跇藴驶脑u估協議和模塊化設計,推動Agent框架的研究。OAgents基于系統實證研究,分析關鍵A...
閱讀原文
12526272829155