AI項目和框架
MobileCLIP2
MobileCLIP2是蘋果公司研究人員推出的高效端側多模態模型,是MobileCLIP的升級版本。在多模態強化訓練方面進行了優化,通過在DFN數據集上訓練性能更優的CLIP...
InternVL3.5
InternVL3.5(書生·萬象3.5)是上海人工智能實驗室開源的多模態大模型,模型在通用能力、推理能力和部署效率上全面升級,提供從10億到2410億參數的九種尺寸版...
MAI-Voice-1
MAI-Voice-1 是微軟人工智能團隊推出的首個具有高度表現力和自然的語音生成模型。模型能在單個 GPU 上不到一秒鐘內生成一分鐘的音頻,是目前最高效的語音系統...
gpt-realtime
gpt-realtime 是 OpenAI 最新推出的先進語音模型,專為實際任務設計。模型能生成高質量、自然的語音,支持多種語言和語音風格,能理解非語言線索并根據場景調...
OmniHuman-1.5
OmniHuman-1.5 字節推出的先進的AI模型,能從單張圖片和語音軌道生成富有表現力的數字人動畫。模型基于雙重系統認知理論,融合多模態大語言模型和擴散變換器...
HunyuanVideo-Foley
HunyuanVideo-Foley是騰訊混元團隊開源的端到端視頻音效生成模型。模型能根據輸入的視頻和文字描述,生成與視頻畫面精準匹配的高質量音效,解決現有AI視頻生...
Grok Code Fast 1
Grok Code Fast 1 是 xAI 推出的 AI 編程模型,專為快速高效的基礎代碼任務設計。模型每秒可處理92個標記,擁有256k的上下文窗口,適合快速原型開發、代碼調...
PixVerse V5
PixVerse V5是愛詩科技推出的自研AI視頻生成大模型,已在全球同步上線。PixVerse V5版本在動態效果、視覺質量、一致性保持和指令遵循等方面進行全面升級,能...
FramePackLoop
FramePackLoop 是基于 FramePack 推出的無限循環視頻生成工具。工具通過創建主視頻和連接視頻,將視頻組合成循環視頻,適用視頻背景、圖標等場景。
MiniCPM-V 4.5
MiniCPM-V 4.5是面壁智能推出的端側多模態模型,擁有8B參數。模型在圖片、視頻、OCR等多個領域表現卓越,尤其在高刷視頻理解方面取得突破,能處理高刷新率視...