AI項目和框架
Multi-Agent Orchestrator
Multi-Agent Orchestrator 是用于管理和協調多個智能代理(Agent)的框架。通過分類器識別用戶輸入的意圖,將請求分配給最適合的代理進行處理,通過對話存儲...
gpt-4o-mini-transcribe
gpt-4o-mini-transcribe 是 OpenAI 推出的語音轉文本模型,gpt-4o-transcribe的精簡版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架構,用知識蒸餾技術從大...
gpt-4o-transcribe
gpt-4o-transcribe是 OpenAI 推出的高性能語音轉文本模型。基于最新的語音模型架構,用海量多樣化音頻數據訓練,精準捕捉語音細微差別,顯著降低單詞錯誤率(...
GPT-4o mini TTS
GPT-4o mini TTS 是 OpenAI 推出的輕量級文本轉語音模型,支持將文本內容轉換為自然流暢語音的同時,開發者能用指令控制語音的語調、情感和風格,例如“平靜”“...
Crack Coder
Crack Coder 是開源的隱形 AI 輔助工具,專為技術面試設計。Crack Coder支持在后臺運行,完全隱形,無法被屏幕錄制或監控軟件檢測到。Crack Coder提供實時 AI...
YT Navigator
YT Navigator 是 AI 驅動的 YouTube 內容搜索工具,幫助用戶高效地搜索和瀏覽 YouTube 頻道內容。YT Navigator自然語言查詢功能,讓用戶快速定位到特定頻道視...
Step-Video-TI2V
Step-Video-TI2V 是階躍星辰(StepFun)推出的開源圖生視頻(Image-to-Video)生成模型,擁有 300 億參數,能根據文本描述和圖像輸入生成最長 102 幀的視頻。...
OLMo 2 32B
OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新開源語言模型,是 OLMo 2 系列的重要成果。擁有 320 億參數,是首個在多技能學術基準測試中超越 GPT-...
Multi-Speaker
Multi-Speaker是AudioShake推出的全球首個高分辨率多說話人分離模型。支持將音頻中的多個說話人精準分離到不同軌道,解決傳統音頻工具在處理重疊語音時的難題...
粵公網安備 44011502001135號