AI項目和框架

Luma Ray2

Luma Ray2 是 Luma AI 推出的最新視頻生成模型,Ray2 基于 Luma 新的多模態架構訓練后展現出先進功能,該架構的計算能力是 Ray1 的 10 倍。能生成快速連貫的...
閱讀原文

Pipecat

Pipecat是開源的Python框架,專注于構建語音和多模態對話代理。基于內置的語音識別、文本轉語音(TTS)和對話處理功能,簡化AI服務的復雜協調、網絡傳輸、音...
閱讀原文

RealtimeSTT

RealtimeSTT是開源的實時語音轉文本庫,專為低延遲應用設計。有強大的語音活動檢測功能,可自動識別說話的開始與結束,通過WebRTCVAD和SileroVAD進行精準檢測...
閱讀原文

Step R-mini

Step R-mini(全稱Step Reasoner mini)是階躍星辰推出的推理模型, 是 Step 系列模型家族的首個推理模型,擅長主動規劃、嘗試和反思,基于慢思考和反復驗證...
閱讀原文

GLM-Realtime

GLM-Realtime是智譜推出的全新端到端多模態模型,具備低延遲的視頻理解與語音交互能力,特別融入清唱功能,讓大模型在對話中能展現歌唱才能。模型支持長達2分...
閱讀原文

CogView-3-Flash

CogView-3-Flash 是智譜推出的首個免費AI圖像生成模型,能根據文本描述生成高審美分數的圖像,支持多種分辨率,滿足專業領域需求。模型具備創意多樣性,基于...
閱讀原文

LlamaV-o1

LlamaV-o1是阿聯酋穆罕默德·本·扎耶德人工智能大學等機構提出的新多模態視覺推理模型,旨在提升大型語言模型的逐步視覺推理能力。引入視覺推理鏈基準測試VRC-...
閱讀原文

Kokoro-TTS

Kokoro-TTS 是 hexgrad 開發的輕量級文本轉語音(TTS)模型,具有 8200 萬參數。基于 StyleTTS 2 和 ISTFTNet 的混合架構,采用純解碼器設計,不使用擴散模型...
閱讀原文

MinMo

MinMo是阿里巴巴通義實驗室FunAudioLLM團隊推出的多模態大模型,專注于實現無縫語音交互。MinMo擁有約80億參數,基于多階段訓練,在140萬小時多樣化語音數據...
閱讀原文

MiniMax-01

MiniMax-01是MiniMax推出的全新系列模型,包含基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。MiniMax-01首次大規模實現線性注意力機制,打...
閱讀原文

訊飛星火 X1

訊飛星火 X1 是科大訊飛于2025年1月15日發布的國內首個基于全國產算力平臺訓練的具備深度思考和推理能力的大模型。在解題過程中更接近人類的“慢思考”方式,僅...
閱讀原文

星火語音同傳大模型

星火語音同傳大模型是科大訊飛于2025年1月15日發布的國內首個具備端到端語音同傳能力的大模型。模型在內容完整度、信息準確度以及語言質量上均處于行業領先水...
閱讀原文

Titans

Titans是谷歌推出的新型神經網絡架構,能突破Transformer在處理長序列數據時的記憶瓶頸。Titans引入神經長期記憶模塊,模擬人腦記憶機制,特別強化對意外事件...
閱讀原文

moonshot-v1-vision-preview

moonshot-v1-vision-preview 是月之暗面推出的多模態圖片理解模型,模型完善了 moonshot-v1 模型系列的多模態能力,具備強大的圖像識別能力,能精準區分復雜...
閱讀原文

MiniCPM-o 2.6

MiniCPM-o 2.6 是MiniCPM-o 系列最新、性能最佳的多模態大模型,具有 8B 參數量。MiniCPM-o 2.6在視覺、語音和多模態直播等多個領域表現出色,達到與 GPT-4o ...
閱讀原文
17071727374146