AI項目和框架

Asyncflow v1.0

Asyncflow v1.0 是播客平臺 Podcastle 推出的 AI 文本轉語音模型。支持超過 450 種語音選項,能為文本內容生成高質量的語音朗讀,適用于多種語言和風格。
閱讀原文

NextGenAI

NextGenAI是OpenAI推出的全球性聯盟,基于AI技術推動教育和研究的進步。NextGenAI聯合包括哈佛大學、麻省理工學院、牛津大學等在內的15所頂尖大學和機構,Ope...
閱讀原文

NotaGen

NotaGen 是中央音樂學院、北京航空航天大學、清華大學等機構推出的音樂生成模型,基于模仿大型語言模型(LLM)的訓練范式生成高質量的古典樂譜。NotaGen 基于...
閱讀原文

DiffRhythm

DiffRhythm 是西北工業大學與香港中文大學(深圳)聯合開發的端到端音樂生成工具,基于潛擴散模型(Latent Diffusion)技術,能快速生成包含人聲和伴奏的完整...
閱讀原文

OmniAlign-V

OmniAlign-V 是上海交通大學、上海AI Lab、南京大學、復旦大學和浙江大學聯合推出的專為提升多模態大語言模型(MLLMs)與人類偏好的對齊能力設計的高質量數據...
閱讀原文

TrendPublish

TrendPublish 是基于 AI 的趨勢發現和內容發布系統。基于多源數據采集,從 Twitter/X、網站等渠道獲取信息,用 DeepseekAI、千問等 AI 服務進行智能總結、關...
閱讀原文

Proxy Lite

Proxy Lite 是開源的輕量級視覺語言模型(VLM),參數量為3B,支持自動化網頁任務。Proxy Lite 能像人類一樣操作瀏覽器,完成網頁交互、數據抓取、表單填寫等...
閱讀原文

WeGen

WeGen 是中國科學技術大學聯合上海交通大學、微信團隊、中國科學院等機構推出的統一多模態生成模型,基于自然對話實現多樣化的視覺生成任務。WeGen結合多模態...
閱讀原文

DiffBrush

DiffBrush是北京郵電大學、清華大學、中國電信人工智能研究所和西北工業大學推出的,無需訓練的圖像生成與編輯框架,支持用戶基于手繪草圖直觀地控制圖像生成...
閱讀原文

Liquid

Liquid是華中科技大學、字節跳動和香港大學聯合推出的極簡統一多模態生成框架。基于VQGAN將圖像編碼為離散的視覺token,與文本token共享同一詞匯空間,讓大型...
閱讀原文

X-Dancer

X-Dancer 是字節跳動聯合加州大學圣地亞哥分校和南加州大學的研究人員共同推出的音樂驅動的人像舞蹈視頻生成框架,支持從單張靜態圖像生成多樣化且逼真的全身...
閱讀原文

AVD2

AVD2(Accident Video Diffusion for Accident Video Description)是清華大學聯合香港科技大學、吉林大學、南京理工大學、北京理工大學、復旦大學等機構推出...
閱讀原文

Kiss3DGen

Kiss3DGen是創新的3D資產生成框架,通過重新基于預訓練的2D圖像擴散模型來高效生成、編輯和增強3D對象。核心在于生成“3D Bundle Image”,將多視圖圖像及對應...
閱讀原文

Archon

Archon 是專注于構建和優化 AI 智能體的開源項目。通過自主生成代碼和優化智能體性能,展示了現代 AI 開發的核心理念。Archon 的核心功能包括智能體的快速構...
閱讀原文

PodAgent

PodAgent 是香港中文大學、微軟和小紅書聯合推出的播客生成框架。基于模擬真實的脫口秀場景,用多智能體協作系統(包括主持人、嘉賓和編劇)自動生成豐富且結...
閱讀原文
15455565758146