AI項目和框架

Multi-Agent Orchestrator

Multi-Agent Orchestrator 是用于管理和協調多個智能代理(Agent)的框架。通過分類器識別用戶輸入的意圖,將請求分配給最適合的代理進行處理,通過對話存儲...

gpt-4o-mini-transcribe

gpt-4o-mini-transcribe 是 OpenAI 推出的語音轉文本模型,gpt-4o-transcribe的精簡版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架構,用知識蒸餾技術從大...
閱讀原文

福棠·百川

福棠·百川是是國家兒童醫學中心、首都醫科大學附屬北京兒童醫院聯合百川智能、小兒方健康共同發布的全球首個兒科大模型。覆蓋了兒童常見病及疑難病癥的立體化...
閱讀原文

gpt-4o-transcribe

gpt-4o-transcribe是 OpenAI 推出的高性能語音轉文本模型。基于最新的語音模型架構,用海量多樣化音頻數據訓練,精準捕捉語音細微差別,顯著降低單詞錯誤率(...
閱讀原文

GPT-4o mini TTS

GPT-4o mini TTS 是 OpenAI 推出的輕量級文本轉語音模型,支持將文本內容轉換為自然流暢語音的同時,開發者能用指令控制語音的語調、情感和風格,例如“平靜”“...

Dify-Plus

Dify-Plus 是基于 Dify 二次開發的企業級增強版項目,集成基于 gin-vue-admin 的管理中心。Dify-Plus在 Dify 基礎上新增用戶額度、密鑰額度、Web 公開頁登錄...
閱讀原文

Crack Coder

Crack Coder 是開源的隱形 AI 輔助工具,專為技術面試設計。Crack Coder支持在后臺運行,完全隱形,無法被屏幕錄制或監控軟件檢測到。Crack Coder提供實時 AI...
閱讀原文

YT Navigator

YT Navigator 是 AI 驅動的 YouTube 內容搜索工具,幫助用戶高效地搜索和瀏覽 YouTube 頻道內容。YT Navigator自然語言查詢功能,讓用戶快速定位到特定頻道視...
閱讀原文

Step-Video-TI2V

Step-Video-TI2V 是階躍星辰(StepFun)推出的開源圖生視頻(Image-to-Video)生成模型,擁有 300 億參數,能根據文本描述和圖像輸入生成最長 102 幀的視頻。...
閱讀原文

InternVL

InternVL 是上海人工智能實驗室 OpenGVLab 推出的多模態大模型,專注于視覺與語言任務。采用 ViT-MLP-LLM 架構,通過視覺模塊(如 InternViT)和語言模塊(如...
閱讀原文

Instella

Instella是AMD推出的系列30億參數的開源語言模型。模型完全從零開始在AMD Instinct? MI300X GPU上訓練而成,基于自回歸Transformer架構,包含36個解碼器層和3...
閱讀原文

Maestro

Maestro是用在移動和Web應用的端到端自動化測試框架。基于內置的容錯能力和延遲容忍機制,解決傳統測試中常見的不穩定性和等待問題。Maestro基于聲明式語法,...
閱讀原文

OLMo 2 32B

OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新開源語言模型,是 OLMo 2 系列的重要成果。擁有 320 億參數,是首個在多技能學術基準測試中超越 GPT-...
閱讀原文

UniFluid

UniFluid 是谷歌 DeepMind 和麻省理工學院聯合推出的,統一的自回歸框架,用在聯合視覺生成和理解任務。基于連續視覺標記處理多模態圖像和文本輸入,生成離散...
閱讀原文

Multi-Speaker

Multi-Speaker是AudioShake推出的全球首個高分辨率多說話人分離模型。支持將音頻中的多個說話人精準分離到不同軌道,解決傳統音頻工具在處理重疊語音時的難題...
閱讀原文
15758596061155