AI項目和框架

Agent Q

Agent Q是MultiOn公司聯合斯坦福大學推出的自監督代理推理和搜索框架。Agent Q融合了引導式蒙特卡洛樹搜索(MCTS)、AI自我批評和直接偏好優化(DPO)等技術...
閱讀原文

UniPortrait

UniPortrait是阿里巴巴推出的AI圖像個性化編輯工具,能將照片轉換為動漫風格,支持多人合照和換臉技術。UniPortrait通過先進的"ID嵌入"和"ID...
閱讀原文

LabelU

LabelU 是一款開源的多模態數據標注工具,支持圖像、視頻和音頻的標注,具備拉框、多邊形、標點、標線、分類、描述等圖像標注能力,能滿足目標檢測、圖像分類...
閱讀原文

Buzz

Buzz是一款基于OpenAI Whisper模型構建的離線語音轉文字工具,適用于Windows、macOS和Linux系統。Buzz能將麥克風輸入或音頻、視頻文件實時轉換為文字,支持多...
閱讀原文

HoloDreamer

HoloDreamer是北京大學聯合鵬城實驗室推出的AI文本驅動3D場景生成框架。通過兩個核心模塊:風格化全景圖生成和增強兩階段全景圖重建,從文本描述中快速生成沉...
閱讀原文

HumanVid

HumanVid是香港中文大學和上海人工智能實驗室共同推出的高質量數據集,專為人類圖像動畫訓練設計。結合了現實世界視頻和合成數據,通過精心設計的規則篩選高...
閱讀原文

Cradle

Cradle是面向通用計算機控制(General Computer Control, GCC)的多模態AI Agent框架,由昆侖萬維攜手北京智源人工智能研究院、新加坡南洋理工大學、北京大學...
閱讀原文

Linly-Dubbing

Linly-Dubbing是一個開源的智能視頻多語言AI配音和翻譯工具,能自動將視頻內容翻譯成多種語言,并生成字幕。通過WhisperX和FunASR進行精準語音識別,基于Edge...
閱讀原文

AI Scientist

AI Scientist是Sakana AI推出的首個全自動科學發現AI系統。能獨立完成從創意生成、編碼、實驗執行到撰寫科學論文的整個研究流程。
閱讀原文

ControlNeXt

ControlNeXt是一種新型的AI圖像和視頻可控生成框架,由香港中文大學和商湯科技聯合開發。采用輕量化控制模塊和創新的交叉歸一化技術,大幅降低計算資源和訓練...
閱讀原文

FancyVideo

FancyVideo是360聯合中山大學推出的AI文生視頻模型。基于創新的跨幀文本引導模塊(Cross-frame Textual Guidance Module, CTGM),能根據文本提示生成動態豐...
閱讀原文

MovieDreamer

MovieDreamer是浙江大學聯合阿里巴巴專為長視頻研發的AI視頻生成框架。結合自回歸模型和擴散渲染技術,能生成具有復雜情節和高視覺質量的長視頻。
閱讀原文

Glyph-ByT5

Glyph-ByT5-v2由微軟亞洲研究院、清華大學、北京大學和利物浦大學聯合開發的多語言視覺文本渲染項目。Glyph-ByT5-v2支持10種不同語言的準確視覺文本渲染,審...
閱讀原文

Llama-3.1-Minitron

Llama-3.1-Minitron是由英偉達和Meta合作開發的AI模型,通過剪枝和知識蒸餾技術從Llama 3.1 8B模型精煉而成的更小型4B參數模型。這種優化減少了模型大小和復...
閱讀原文

HybridRAG

HybridRAG 是黑石聯合英偉達推出的混合檢索增強生成架構,結合了檢索增強生成(Retrieval-Augmented Generation)模型的機器學習架構。模型通過檢索系統尋找...
閱讀原文