AI項目和框架

CogView4

CogView4 是智譜推出的開源文生圖模型,具有60億參數,支持原生中文輸入和中文文字生成。模型在 DPG-Bench 基準測試中綜合評分排名第一,達到開源文生圖模型...
閱讀原文

AgiBot Digital World

AgiBot Digital World 是智元機器人推出的高保真機器人仿真框架,為機器人操作技能研究與應用提供高效支持。AgiBot Digital World集成海量逼真的三維資產、多...
閱讀原文

ARTalk

ARTalk是東京大學和日本理化學研究所推出的新型語音驅動3D頭部動畫生成框架,基于自回歸模型實現實時、高同步性的唇部動作和自然的面部表情及頭部姿勢生成。A...
閱讀原文

HumanOmni

HumanOmni 是專注于人類中心場景的多模態大模型,視覺和聽覺模態融合而成。通過處理視頻、音頻或兩者的結合輸入,能全面理解人類行為、情感和交互。模型基于...
閱讀原文

Spark-TTS

Spark-TTS 是SparkAudio 團隊開源的基于大型語言模型(LLM)的高效文本轉語音(TTS)工具, 無需額外的生成模型,直接從 LLM 預測的編碼中重建音頻,實現零樣...
閱讀原文

ViDoRAG

ViDoRAG是阿里巴巴通義實驗室聯合中國科學技術大學和上海交通大學推出的視覺文檔檢索增強生成框架。基于多智能體協作和動態迭代推理,解決傳統方法在處理復雜...
閱讀原文

Shandu

Shandu 是開源的 AI 研究自動化工具,結合了 LangChain 和 LangGraph 技術,能自動化地進行多層次信息挖掘和分析,生成結構化的研究報告。Shandu 的核心功能...
閱讀原文

LCVD

LCVD(Lighting Controllable Video Diffusion Model)是四川大學推出的高保真、光照可控的肖像動畫生成框架。LCVD基于分離肖像的內在特征(如身份和外觀)與...
閱讀原文

SepLLM

SepLLM是香港大學、華為諾亞方舟實驗室等機構聯合提出的用于加速大語言模型(LLM)的高效框架,通過壓縮段落信息并消除冗余標記,顯著提高了模型的推理速度和...
閱讀原文

story-flicks

story-flicks 是基于AI大模型的項目,支持一鍵生成高清故事短視頻。用戶輸入故事主題后,系統基于AI技術生成包含圖像、文本、音頻和字幕的短視頻。story-flic...
閱讀原文

Avat3r

Avat3r 是慕尼黑工業大學和 Meta Reality Labs 推出的高保真三維頭部頭像的大型可動畫高斯重建模型,僅需幾張輸入圖像,能生成高質量且可動畫化的 3D 頭部頭...
閱讀原文

WhisperChain

WhisperChain 是開源的語音識別工具,基于語音輸入提升工作效率。WhisperChain用 Whisper.cpp 實現實時語音識別,將語音轉換為文本,基于 LangChain 對文本進...
閱讀原文

星火醫療大模型X1

星火醫療大模型X1是科大訊飛發布的深度推理大模型,專門針對醫療領域設計,具備強大的復雜問題處理能力。模型通過深度推理算法,能逐步解釋循證過程,顯著降...
閱讀原文

WarriorCoder

WarriorCoder 是華南理工大學計算機科學與工程學院和微軟推出的代碼生成大語言模型(LLM)。基于模擬專家模型之間的對抗生成高質量訓練數據,提升模型性能。...
閱讀原文

xAR

xAR 是字節跳動和約翰·霍普金斯大學聯合提出的新型自回歸視覺生成框架??蚣芡ㄟ^“下一個X預測”(Next-X Prediction)和“噪聲上下文學習”(Noisy Context Lear...
閱讀原文
15657585960146