AI項目和框架

Reverb ASR

Reverb ASR是Rev公司推出的開源自動語音識別和說話人分離模型,基于20萬小時的人工轉錄英語數據訓練而成。模型在長語音識別領域表現卓越,適合處理如播客和財...
閱讀原文

Open NotebookLM

Open NotebookLM 是一個開源的AI工具,基于最新的開源AI模型,如Llama 3.1 405B、MeloTTS和Bark,將PDF文檔轉換成播客形式的音頻內容。工具適合將書面信息轉...
閱讀原文

StoryDiffusion

StoryDiffusion是一個先進的AI圖像和視頻生成框架,用于從文本描述生成具有一致性的圖像和視頻序列。基于Consistent Self-Attention機制增強圖像間的一致性,...
閱讀原文

Crawl4AI

Crawl4AI是一款用 Python 開發的異步爬蟲框架,專為大型語言模型(LLMs)和人工智能(AI)應用設計,簡化網絡爬蟲和數據提取流程。基于異步架構,高效地處理...
閱讀原文

Wren AI

Wren AI 是一個開源的文本到 SQL 解決方案,基于自然語言處理技術,支持用戶通過自然語言提問執行數據庫查詢,無需編寫復雜的 SQL 代碼。支持多種數據庫和數...
閱讀原文

Podcastfy

Podcastfy 是一個開源的 Python 軟件包,能將網絡內容、PDF 文檔及文本轉換成多語言的音頻對話形式。這款工具采用了先進的生成式人工智能(GenAI)技術,類似...
閱讀原文

Gradio

Gradio 是一個開源的 Python 庫,簡化機器學習模型的演示和共享過程。支持開發者基于簡單的代碼快速創建出友好的網頁界面,任何人、任何地點能輕松使用機器學...
閱讀原文

LosslessCut

LosslessCut是一款開源的視頻編輯工具,用于快速且無損地剪切和合并視頻和音頻文件。基于強大的FFmpeg庫構建,提供一個直觀的圖形用戶界面,用戶輕松地進行剪...
閱讀原文

Future You

Future You是麻省理工學院(MIT)推出的AI對話聊天產品,支持用戶與60歲時的虛擬形象進行互動對話。Future You基于先進的AI技術,結合用戶當前的生活目標和個...
閱讀原文

PixWizard

PixWizard是一個多功能的圖像到圖像視覺助手,基于自然語言指令執行圖像生成、編輯和翻譯等任務。系統通過統一的圖像-文本到圖像生成框架,將多種視覺任務整...
閱讀原文

screenpipe

screenpipe是一款基于AI技術,全天候監控用戶電腦屏幕和麥克風的開源軟件。通過捕捉屏幕活動和音頻,用AI進行智能分析,提升工作效率和保障數據隱私。screenp...
閱讀原文

Pyramid-Flow

Pyramid-Flow是一種先進的視頻生成模型,由北京大學、快手科技和北京郵電大學的研究人員聯合推出。模型根據文本提示生成長達10秒、分辨率高達1280x768、幀率2...
閱讀原文

Aria

Aria是由Rhymes AI團隊推出全球首個開源多模態原生混合專家(MoE)模型,能理解和處理文本、代碼、圖像和視頻等多種輸入模態。模型在多模態和語言任務上展現...
閱讀原文

Swarm

Swarm是由OpenAI推出的一個實驗性框架,旨在構建、編排和部署多智能體系統。基于輕量級的Agent和handoff機制,簡化智能體之間的協調和執行過程,讓控制更加精...
閱讀原文

百度智能云一見

百度智能云一見是百度智能云推出的視覺大模型平臺,旨在基于領先的視覺大模型技術和豐富的場景化算法方案,實現專業級視覺AI應用的平民化。平臺打通從模型生...
閱讀原文