AI項目和框架

編碼面試解題助手

編碼面試解題助手是面向中文用戶的編程輔助工具,能通過快捷鍵抓取屏幕上的編程題目,實時借助AI生成解題思路和代碼。
閱讀原文

USO

USO(Unified Style-Subject Optimized)是字節跳動 UXO 團隊推出的 AI 繪畫模型。能將任何主題與任何風格在任何場景中自由組合,生成具有高度主體一致性、強...
閱讀原文

AgentScope 1.0

AgentScope 1.0 是阿里通義開源的多智能體開發框架,通過三層技術架構,AgentScope核心框架、AgentScope Runtime 和 AgentScope Studio,提供從開發到部署的...
閱讀原文

HunyuanWorld-Voyager

HunyuanWorld-Voyager(簡稱混元Voyager)是騰訊推出的業界首個支持原生3D重建的超長漫游世界模型。是新穎的視頻擴散框架,能從單張圖片生成用戶定義相機路徑...
閱讀原文

AudioStory

AudioStory 是騰訊 ARC 實驗室發布的音頻生成技術,能根據自然語言描述生成高質量的長篇敘事音頻。采用分而治之策略,將復雜敘事請求拆解為有序子任務,通過...
閱讀原文

Open-Fiesta

Open-Fiesta 是開源的多模型 AI 聊天平臺,基于 Next.js 14 構建。平臺支持多種 AI 提供商(如 Gemini、OpenRouter 等)和多種模型,用戶能同時選擇 5 種模型...
閱讀原文

Step-Audio 2 mini

Step-Audio 2 mini 是階躍星辰發布的開源端到端語音大模型。突破傳統語音模型結構,采用真端到端多模態架構,直接將原始音頻輸入轉化為語音響應輸出,時延更...
閱讀原文

MobileCLIP2

MobileCLIP2是蘋果公司研究人員推出的高效端側多模態模型,是MobileCLIP的升級版本。在多模態強化訓練方面進行了優化,通過在DFN數據集上訓練性能更優的CLIP...
閱讀原文

MAI-1-preview

MAI-1-preview 是微軟人工智能團隊推出的端到端訓練的基礎模型,為用戶提供遵循指令和回答日常查詢的能力。
閱讀原文

InternVL3.5

InternVL3.5(書生·萬象3.5)是上海人工智能實驗室開源的多模態大模型,模型在通用能力、推理能力和部署效率上全面升級,提供從10億到2410億參數的九種尺寸版...
閱讀原文

MAI-Voice-1

MAI-Voice-1 是微軟人工智能團隊推出的首個具有高度表現力和自然的語音生成模型。模型能在單個 GPU 上不到一秒鐘內生成一分鐘的音頻,是目前最高效的語音系統...
閱讀原文

Async

Async 是開源的開發者工具,為經驗豐富的開發者提供結合AI編碼、任務管理和代碼審查的統一工作流,通過 AI 技術幫助開發者提高工作效率。
閱讀原文

gpt-realtime

gpt-realtime 是 OpenAI 最新推出的先進語音模型,專為實際任務設計。模型能生成高質量、自然的語音,支持多種語言和語音風格,能理解非語言線索并根據場景調...
閱讀原文

OmniHuman-1.5

OmniHuman-1.5 字節推出的先進的AI模型,能從單張圖片和語音軌道生成富有表現力的數字人動畫。模型基于雙重系統認知理論,融合多模態大語言模型和擴散變換器...
閱讀原文

Meeseeks

Meeseeks 是美團 M17 團隊開源的大模型評測集,用在評估模型的指令遵循能力。Meeseeks通過三級評測框架,從宏觀到微觀全面衡量模型是否能嚴格按照用戶指令生...
閱讀原文
11516171819155