AI工具
MobileCLIP2
MobileCLIP2是蘋果公司研究人員推出的高效端側多模態模型,是MobileCLIP的升級版本。在多模態強化訓練方面進行了優化,通過在DFN數據集上訓練性能更優的CLIP...
InternVL3.5
InternVL3.5(書生·萬象3.5)是上海人工智能實驗室開源的多模態大模型,模型在通用能力、推理能力和部署效率上全面升級,提供從10億到2410億參數的九種尺寸版...
MAI-Voice-1
MAI-Voice-1 是微軟人工智能團隊推出的首個具有高度表現力和自然的語音生成模型。模型能在單個 GPU 上不到一秒鐘內生成一分鐘的音頻,是目前最高效的語音系統...
gpt-realtime
gpt-realtime 是 OpenAI 最新推出的先進語音模型,專為實際任務設計。模型能生成高質量、自然的語音,支持多種語言和語音風格,能理解非語言線索并根據場景調...
OmniHuman-1.5
OmniHuman-1.5 字節推出的先進的AI模型,能從單張圖片和語音軌道生成富有表現力的數字人動畫。模型基于雙重系統認知理論,融合多模態大語言模型和擴散變換器...
HunyuanVideo-Foley
HunyuanVideo-Foley是騰訊混元團隊開源的端到端視頻音效生成模型。模型能根據輸入的視頻和文字描述,生成與視頻畫面精準匹配的高質量音效,解決現有AI視頻生...