Open-Fiesta
Open-Fiesta 是開源的多模型 AI 聊天平臺,基于 Next.js 14 構建。平臺支持多種 AI 提供商(如 Gemini、OpenRouter 等)和多種模型,用戶能同時選擇 5 種模型...
Step-Audio 2 mini
Step-Audio 2 mini 是階躍星辰發布的開源端到端語音大模型。突破傳統語音模型結構,采用真端到端多模態架構,直接將原始音頻輸入轉化為語音響應輸出,時延更...
MobileCLIP2
MobileCLIP2是蘋果公司研究人員推出的高效端側多模態模型,是MobileCLIP的升級版本。在多模態強化訓練方面進行了優化,通過在DFN數據集上訓練性能更優的CLIP...
InternVL3.5
InternVL3.5(書生·萬象3.5)是上海人工智能實驗室開源的多模態大模型,模型在通用能力、推理能力和部署效率上全面升級,提供從10億到2410億參數的九種尺寸版...
MAI-Voice-1
MAI-Voice-1 是微軟人工智能團隊推出的首個具有高度表現力和自然的語音生成模型。模型能在單個 GPU 上不到一秒鐘內生成一分鐘的音頻,是目前最高效的語音系統...
gpt-realtime
gpt-realtime 是 OpenAI 最新推出的先進語音模型,專為實際任務設計。模型能生成高質量、自然的語音,支持多種語言和語音風格,能理解非語言線索并根據場景調...
OmniHuman-1.5
OmniHuman-1.5 字節推出的先進的AI模型,能從單張圖片和語音軌道生成富有表現力的數字人動畫。模型基于雙重系統認知理論,融合多模態大語言模型和擴散變換器...