AI項目和框架
RealtimeSTT
RealtimeSTT是開源的實時語音轉文本庫,專為低延遲應用設計。有強大的語音活動檢測功能,可自動識別說話的開始與結束,通過WebRTCVAD和SileroVAD進行精準檢測...
Step R-mini
Step R-mini(全稱Step Reasoner mini)是階躍星辰推出的推理模型, 是 Step 系列模型家族的首個推理模型,擅長主動規劃、嘗試和反思,基于慢思考和反復驗證...
GLM-Realtime
GLM-Realtime是智譜推出的全新端到端多模態模型,具備低延遲的視頻理解與語音交互能力,特別融入清唱功能,讓大模型在對話中能展現歌唱才能。模型支持長達2分...
CogView-3-Flash
CogView-3-Flash 是智譜推出的首個免費AI圖像生成模型,能根據文本描述生成高審美分數的圖像,支持多種分辨率,滿足專業領域需求。模型具備創意多樣性,基于...
Kokoro-TTS
Kokoro-TTS 是 hexgrad 開發的輕量級文本轉語音(TTS)模型,具有 8200 萬參數。基于 StyleTTS 2 和 ISTFTNet 的混合架構,采用純解碼器設計,不使用擴散模型...
MiniMax-01
MiniMax-01是MiniMax推出的全新系列模型,包含基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。MiniMax-01首次大規模實現線性注意力機制,打...
moonshot-v1-vision-preview
moonshot-v1-vision-preview 是月之暗面推出的多模態圖片理解模型,模型完善了 moonshot-v1 模型系列的多模態能力,具備強大的圖像識別能力,能精準區分復雜...
MiniCPM-o 2.6
MiniCPM-o 2.6 是MiniCPM-o 系列最新、性能最佳的多模態大模型,具有 8B 參數量。MiniCPM-o 2.6在視覺、語音和多模態直播等多個領域表現出色,達到與 GPT-4o ...