AI項目和框架
Reverb ASR
Reverb ASR是Rev公司推出的開源自動語音識別和說話人分離模型,基于20萬小時的人工轉錄英語數據訓練而成。模型在長語音識別領域表現卓越,適合處理如播客和財...
Open NotebookLM
Open NotebookLM 是一個開源的AI工具,基于最新的開源AI模型,如Llama 3.1 405B、MeloTTS和Bark,將PDF文檔轉換成播客形式的音頻內容。工具適合將書面信息轉...
StoryDiffusion
StoryDiffusion是一個先進的AI圖像和視頻生成框架,用于從文本描述生成具有一致性的圖像和視頻序列。基于Consistent Self-Attention機制增強圖像間的一致性,...
LosslessCut
LosslessCut是一款開源的視頻編輯工具,用于快速且無損地剪切和合并視頻和音頻文件。基于強大的FFmpeg庫構建,提供一個直觀的圖形用戶界面,用戶輕松地進行剪...
Future You
Future You是麻省理工學院(MIT)推出的AI對話聊天產品,支持用戶與60歲時的虛擬形象進行互動對話。Future You基于先進的AI技術,結合用戶當前的生活目標和個...
screenpipe
screenpipe是一款基于AI技術,全天候監控用戶電腦屏幕和麥克風的開源軟件。通過捕捉屏幕活動和音頻,用AI進行智能分析,提升工作效率和保障數據隱私。screenp...
Pyramid-Flow
Pyramid-Flow是一種先進的視頻生成模型,由北京大學、快手科技和北京郵電大學的研究人員聯合推出。模型根據文本提示生成長達10秒、分辨率高達1280x768、幀率2...