AI項目和框架

PixelHacker

PixelHacker 是華中科技大學和 VIVO AI Lab聯合推出的圖像修復(Image Inpainting)模型。基于引入潛在類別引導(Latent Categories Guidance, LCG)范式,分...
閱讀原文

Mogao

Mogao是字節跳動Seed團隊推出的交錯多模態生成全基礎模型。在架構上采用了雙視覺編碼器,結合變分自編碼器(VAE)和視覺變換器(ViT),能更好地進行視覺理解...
閱讀原文

Scenethesis

Scenethesis 是 NVIDIA 推出的創新框架,用在從文本生成交互式 3D 場景。框架結合大型語言模型(LLM)和視覺感知技術,基于多階段流程實現高效生成,用 LLM ...
閱讀原文

FunGPT

FunGPT 是基于 InternLM2.5 系列大模型開發的開源項目,專為情感調節設計。具備兩大核心功能:甜言蜜語模式和犀利懟語模式。甜言蜜語模式能用溫暖的話語和獨...
閱讀原文

SuperEdit

SuperEdit是字節跳動智能創作團隊和佛羅里達中央大學計算機視覺研究中心聯合推出的指令引導圖像編輯方法,基于優化監督信號提高圖像編輯的精度和效果。SuperE...
閱讀原文

FlowGram.AI

FlowGram 是字節跳動開源的基于節點編輯的前端流程搭建引擎,幫助開發者快速構建固定布局或自由連線布局的工作流。支持兩種布局模式:固定布局適合順序工作流...
閱讀原文

VITA-Audio

VITA-Audio 是開源的端到端多模態語音大模型,具有低延遲、推理速度快的特點。通過輕量級的多模態交叉標記預測(MCTP)模塊,可在首次前向傳播中生成音頻輸出...
閱讀原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
閱讀原文

Multiverse

Multiverse是以色列團隊Enigma Labs推出的全球首個AI生成多人游戲模型。是多人賽車游戲,玩家可以超車、漂移、加速,每一次行動會實時影響并重塑游戲世界。模...
閱讀原文

Open Code Reasoning

Open Code Reasoning(OCR)是英偉達開源的代碼推理AI模型,基于Nemotron架構,專為提升代碼推理和生成能力設計。OCR包含32B、14B和7B三種模型版本,分別適用...
閱讀原文

KuaiMod

KuaiMod 是快手推出的基于多模態大模型的短視頻質量判別框架,能高效識別和過濾有害及低質量內容。框架借鑒普通法(Common Law)體系,基于案例驅動的方式動...
閱讀原文

WebThinker

WebThinker是中國人民大學、北京智源人工智能研究院和華為泊松實驗室等機構提出的深度研究智能體。WebThinker賦能大型推理模型(LRMs)在推理過程中自主進行...
閱讀原文

DeerFlow

DeerFlow 是字節跳動開源的深度研究框架,能幫助用戶高效完成復雜的研究任務。DeerFlow結合語言模型與多種工具,如網絡搜索、爬蟲和 Python 執行,能快速生成...
閱讀原文

ZeroSearch

ZeroSearch 是阿里巴巴通義實驗室開源的創新大模型搜索引擎框架,基于強化學習激勵大模型的搜索能力,無需與真實搜索引擎交互。框架愛基于大模型預訓練知識,...
閱讀原文

Chatlog

Chatlog是開源的聊天記錄分析工具,支持高效解析、可視化和挖掘微信、QQ、Telegram等主流聊天工具的聊天記錄。工具支持從本地數據庫文件獲取數據,提供智能分...
閱讀原文
13233343536146