AI項目和框架

Seed1.5-Embedding

Seed1.5-Embedding 是字節跳動 Seed 團隊最新發布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 進一步訓練。模型在權威測評榜單 MTEB 上達到了中英文 SOTA 效...
閱讀原文

FastVLM

FastVLM是蘋果推出的高效的視覺語言模型(VLM),能提升高分辨率圖像處理的效率和性能。模型引入FastViTHD新型混合視覺編碼器,有效減少視覺token數量,顯著...
閱讀原文

ZenCtrl

ZenCtrl 是 Fotographer AI 推出的 AI 圖像生成工具,支持從單張圖像生成高質量、多視角和多樣化場景的圖像,無需額外訓練數據。
閱讀原文

Seed-Coder

Seed-Coder是字節跳動開源的8B規模代碼模型系列,提升代碼生成與理解能力。包含Base、Instruct和Reasoning三個版本,分別適用于代碼補全、指令遵循和復雜推理...
閱讀原文

LegoGPT

LegoGPT 是卡內基梅隆大學推出的樂高積木設計模型,支持基于文本提示生成物理穩定且能構建的樂高積木模型。LegoGPT 基于自回歸語言模型和大規模樂高設計數據...
閱讀原文

BILIVE

BILIVE 是一款基于 AI 技術的開源工具,專為 B 站直播錄制與處理設計。工具支持自動錄制直播、渲染彈幕和字幕,支持語音識別、自動切片精彩片段,生成有趣的...
閱讀原文

LTXV-13B

LTXV-13B 是Lightricks推出的開源 AI 視頻生成模型,擁有 130 億參數。具備極高的生成速度,比同類產品快 30 倍,能在普通消費級顯卡(如 4090/5090)上運行...
閱讀原文

PixelHacker

PixelHacker 是華中科技大學和 VIVO AI Lab聯合推出的圖像修復(Image Inpainting)模型。基于引入潛在類別引導(Latent Categories Guidance, LCG)范式,分...
閱讀原文

Mogao

Mogao是字節跳動Seed團隊推出的交錯多模態生成全基礎模型。在架構上采用了雙視覺編碼器,結合變分自編碼器(VAE)和視覺變換器(ViT),能更好地進行視覺理解...
閱讀原文

Scenethesis

Scenethesis 是 NVIDIA 推出的創新框架,用在從文本生成交互式 3D 場景。框架結合大型語言模型(LLM)和視覺感知技術,基于多階段流程實現高效生成,用 LLM ...
閱讀原文

FunGPT

FunGPT 是基于 InternLM2.5 系列大模型開發的開源項目,專為情感調節設計。具備兩大核心功能:甜言蜜語模式和犀利懟語模式。甜言蜜語模式能用溫暖的話語和獨...
閱讀原文

SuperEdit

SuperEdit是字節跳動智能創作團隊和佛羅里達中央大學計算機視覺研究中心聯合推出的指令引導圖像編輯方法,基于優化監督信號提高圖像編輯的精度和效果。SuperE...
閱讀原文

FlowGram.AI

FlowGram 是字節跳動開源的基于節點編輯的前端流程搭建引擎,幫助開發者快速構建固定布局或自由連線布局的工作流。支持兩種布局模式:固定布局適合順序工作流...
閱讀原文

VITA-Audio

VITA-Audio 是開源的端到端多模態語音大模型,具有低延遲、推理速度快的特點。通過輕量級的多模態交叉標記預測(MCTP)模塊,可在首次前向傳播中生成音頻輸出...
閱讀原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
閱讀原文
14142434445155