AI項目和框架

Image-01

Image-01 是 MiniMax 推出的先進文本到圖像生成模型,具備卓越的圖像生成能力。能將用戶輸入的文本描述精準轉化為高質量圖像,支持多種縱橫比和高分辨率輸出...
閱讀原文

PRefLexOR

PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning)是MIT團隊提出的新型自學習AI框架,結合了偏好優化...
閱讀原文

Probly

Probly 是 AI 驅動的電子表格工具,結合電子表格功能與 Python 數據分析能力。Probly基于 WebAssembly 在瀏覽器中運行 Python 代碼,支持交互式電子表格、數...
閱讀原文

MindLLM

MindLLM 是耶魯大學、達特茅斯學院和劍橋大學聯合推出的AI模型,能將腦部功能性磁共振成像(fMRI)信號解碼為自然語言文本。MindLLM基于一個主體無關(subjec...
閱讀原文

MiniMind

MiniMind 是開源的超小型語言模型項目,極低成本幫助個人開發者從零開始訓練自己的語言模型。MiniMind 基于輕量級設計,最小版本僅需25.8M參數,體積僅為GPT-...
閱讀原文

Fractal Generative Models

Fractal Generative Models(分形生成模型)是麻省理工學院計算機科學與人工智能實驗室和Google DeepMind團隊推出的新型圖像生成方法。Fractal Generative Mo...
閱讀原文

CogView4

CogView4 是智譜推出的開源文生圖模型,具有60億參數,支持原生中文輸入和中文文字生成。模型在 DPG-Bench 基準測試中綜合評分排名第一,達到開源文生圖模型...
閱讀原文

AgiBot Digital World

AgiBot Digital World 是智元機器人推出的高保真機器人仿真框架,為機器人操作技能研究與應用提供高效支持。AgiBot Digital World集成海量逼真的三維資產、多...
閱讀原文

ARTalk

ARTalk是東京大學和日本理化學研究所推出的新型語音驅動3D頭部動畫生成框架,基于自回歸模型實現實時、高同步性的唇部動作和自然的面部表情及頭部姿勢生成。A...
閱讀原文

HumanOmni

HumanOmni 是專注于人類中心場景的多模態大模型,視覺和聽覺模態融合而成。通過處理視頻、音頻或兩者的結合輸入,能全面理解人類行為、情感和交互。模型基于...
閱讀原文

Spark-TTS

Spark-TTS 是SparkAudio 團隊開源的基于大型語言模型(LLM)的高效文本轉語音(TTS)工具, 無需額外的生成模型,直接從 LLM 預測的編碼中重建音頻,實現零樣...
閱讀原文

ViDoRAG

ViDoRAG是阿里巴巴通義實驗室聯合中國科學技術大學和上海交通大學推出的視覺文檔檢索增強生成框架。基于多智能體協作和動態迭代推理,解決傳統方法在處理復雜...
閱讀原文

Shandu

Shandu 是開源的 AI 研究自動化工具,結合了 LangChain 和 LangGraph 技術,能自動化地進行多層次信息挖掘和分析,生成結構化的研究報告。Shandu 的核心功能...
閱讀原文

LCVD

LCVD(Lighting Controllable Video Diffusion Model)是四川大學推出的高保真、光照可控的肖像動畫生成框架。LCVD基于分離肖像的內在特征(如身份和外觀)與...
閱讀原文

SepLLM

SepLLM是香港大學、華為諾亞方舟實驗室等機構聯合提出的用于加速大語言模型(LLM)的高效框架,通過壓縮段落信息并消除冗余標記,顯著提高了模型的推理速度和...
閱讀原文
16566676869155