AI項目和框架

LabelU

LabelU 是一款開源的多模態數據標注工具,支持圖像、視頻和音頻的標注,具備拉框、多邊形、標點、標線、分類、描述等圖像標注能力,能滿足目標檢測、圖像分類...
閱讀原文

Buzz

Buzz是一款基于OpenAI Whisper模型構建的離線語音轉文字工具,適用于Windows、macOS和Linux系統。Buzz能將麥克風輸入或音頻、視頻文件實時轉換為文字,支持多...
閱讀原文

HoloDreamer

HoloDreamer是北京大學聯合鵬城實驗室推出的AI文本驅動3D場景生成框架。通過兩個核心模塊:風格化全景圖生成和增強兩階段全景圖重建,從文本描述中快速生成沉...
閱讀原文

HumanVid

HumanVid是香港中文大學和上海人工智能實驗室共同推出的高質量數據集,專為人類圖像動畫訓練設計。結合了現實世界視頻和合成數據,通過精心設計的規則篩選高...
閱讀原文

Cradle

Cradle是面向通用計算機控制(General Computer Control, GCC)的多模態AI Agent框架,由昆侖萬維攜手北京智源人工智能研究院、新加坡南洋理工大學、北京大學...
閱讀原文

Linly-Dubbing

Linly-Dubbing是一個開源的智能視頻多語言AI配音和翻譯工具,能自動將視頻內容翻譯成多種語言,并生成字幕。通過WhisperX和FunASR進行精準語音識別,基于Edge...
閱讀原文

AI Scientist

AI Scientist是Sakana AI推出的首個全自動科學發現AI系統。能獨立完成從創意生成、編碼、實驗執行到撰寫科學論文的整個研究流程。
閱讀原文

ControlNeXt

ControlNeXt是一種新型的AI圖像和視頻可控生成框架,由香港中文大學和商湯科技聯合開發。采用輕量化控制模塊和創新的交叉歸一化技術,大幅降低計算資源和訓練...
閱讀原文

FancyVideo

FancyVideo是360聯合中山大學推出的AI文生視頻模型?;趧撔碌目鐜谋疽龑K(Cross-frame Textual Guidance Module, CTGM),能根據文本提示生成動態豐...
閱讀原文

MovieDreamer

MovieDreamer是浙江大學聯合阿里巴巴專為長視頻研發的AI視頻生成框架。結合自回歸模型和擴散渲染技術,能生成具有復雜情節和高視覺質量的長視頻。
閱讀原文

Glyph-ByT5

Glyph-ByT5-v2由微軟亞洲研究院、清華大學、北京大學和利物浦大學聯合開發的多語言視覺文本渲染項目。Glyph-ByT5-v2支持10種不同語言的準確視覺文本渲染,審...
閱讀原文

Llama-3.1-Minitron

Llama-3.1-Minitron是由英偉達和Meta合作開發的AI模型,通過剪枝和知識蒸餾技術從Llama 3.1 8B模型精煉而成的更小型4B參數模型。這種優化減少了模型大小和復...
閱讀原文

HybridRAG

HybridRAG 是黑石聯合英偉達推出的混合檢索增強生成架構,結合了檢索增強生成(Retrieval-Augmented Generation)模型的機器學習架構。模型通過檢索系統尋找...
閱讀原文

DeepSeek-Prover-V1.5

DeepSeek-Prover-V1.5是由DeepSeek團隊開發的開源數學大模型,擁有70億參數。模型通過結合強化學習(RLPAF)和蒙特卡洛樹搜索(特別是RMaxTS變體),在數學定...
閱讀原文

SadTalker

SadTalker是西安交通大學、騰訊AI實驗室和螞蟻集團聯合推出的開源AI數字人項目。SadTalker專注于通過單張人臉圖像和語音音頻,利用3D運動系數生成逼真的說話...
閱讀原文