AI項目和框架

GPT-4o mini TTS

GPT-4o mini TTS 是 OpenAI 推出的輕量級文本轉語音模型,支持將文本內容轉換為自然流暢語音的同時,開發者能用指令控制語音的語調、情感和風格,例如“平靜”“...

Dify-Plus

Dify-Plus 是基于 Dify 二次開發的企業級增強版項目,集成基于 gin-vue-admin 的管理中心。Dify-Plus在 Dify 基礎上新增用戶額度、密鑰額度、Web 公開頁登錄...
閱讀原文

Crack Coder

Crack Coder 是開源的隱形 AI 輔助工具,專為技術面試設計。Crack Coder支持在后臺運行,完全隱形,無法被屏幕錄制或監控軟件檢測到。Crack Coder提供實時 AI...
閱讀原文

YT Navigator

YT Navigator 是 AI 驅動的 YouTube 內容搜索工具,幫助用戶高效地搜索和瀏覽 YouTube 頻道內容。YT Navigator自然語言查詢功能,讓用戶快速定位到特定頻道視...
閱讀原文

Step-Video-TI2V

Step-Video-TI2V 是階躍星辰(StepFun)推出的開源圖生視頻(Image-to-Video)生成模型,擁有 300 億參數,能根據文本描述和圖像輸入生成最長 102 幀的視頻。...
閱讀原文

InternVL

InternVL 是上海人工智能實驗室 OpenGVLab 推出的多模態大模型,專注于視覺與語言任務。采用 ViT-MLP-LLM 架構,通過視覺模塊(如 InternViT)和語言模塊(如...
閱讀原文

Instella

Instella是AMD推出的系列30億參數的開源語言模型。模型完全從零開始在AMD Instinct? MI300X GPU上訓練而成,基于自回歸Transformer架構,包含36個解碼器層和3...
閱讀原文

Maestro

Maestro是用在移動和Web應用的端到端自動化測試框架。基于內置的容錯能力和延遲容忍機制,解決傳統測試中常見的不穩定性和等待問題。Maestro基于聲明式語法,...
閱讀原文

OLMo 2 32B

OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新開源語言模型,是 OLMo 2 系列的重要成果。擁有 320 億參數,是首個在多技能學術基準測試中超越 GPT-...
閱讀原文

UniFluid

UniFluid 是谷歌 DeepMind 和麻省理工學院聯合推出的,統一的自回歸框架,用在聯合視覺生成和理解任務。基于連續視覺標記處理多模態圖像和文本輸入,生成離散...
閱讀原文

Multi-Speaker

Multi-Speaker是AudioShake推出的全球首個高分辨率多說話人分離模型。支持將音頻中的多個說話人精準分離到不同軌道,解決傳統音頻工具在處理重疊語音時的難題...
閱讀原文

UniAct

UniAct 是新型的具身基礎模型框架,解決不同機器人之間行為異構性的問題。通過學習通用行為,捕捉不同機器人共享的原子行為特征,消除因物理形態和控制接口差...
閱讀原文

ReCamMaster

ReCamMaster 是浙江大學、快手科技等聯合推出的視頻重渲染框架,能根據新的相機軌跡重新生成視頻內容。通過預訓練模型和幀維度條件機制,結合多相機同步數據...
閱讀原文

Stable Virtual Camera

Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能將 2D 圖像轉換為具有真實深度和透視感的 3D 視頻。用戶可以通過指定相機軌跡和多種動態路徑(如...
閱讀原文

Cube 3D

Cube 3D 是 Roblox 推出的AI 3D生成大模型,基于 AI 技術高效生成 3D 模型和環境。Cube 3D支持直接從文本描述生成完整的 3D 對象,與游戲引擎兼容。Cube 3D能...
閱讀原文
14849505152146