AI項目和框架
PixelHacker
PixelHacker 是華中科技大學和 VIVO AI Lab聯合推出的圖像修復(Image Inpainting)模型。基于引入潛在類別引導(Latent Categories Guidance, LCG)范式,分...
Scenethesis
Scenethesis 是 NVIDIA 推出的創新框架,用在從文本生成交互式 3D 場景。框架結合大型語言模型(LLM)和視覺感知技術,基于多階段流程實現高效生成,用 LLM ...
VITA-Audio
VITA-Audio 是開源的端到端多模態語音大模型,具有低延遲、推理速度快的特點。通過輕量級的多模態交叉標記預測(MCTP)模塊,可在首次前向傳播中生成音頻輸出...
Parakeet TDT 0.6B
Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
Multiverse
Multiverse是以色列團隊Enigma Labs推出的全球首個AI生成多人游戲模型。是多人賽車游戲,玩家可以超車、漂移、加速,每一次行動會實時影響并重塑游戲世界。模...
Open Code Reasoning
Open Code Reasoning(OCR)是英偉達開源的代碼推理AI模型,基于Nemotron架構,專為提升代碼推理和生成能力設計。OCR包含32B、14B和7B三種模型版本,分別適用...
WebThinker
WebThinker是中國人民大學、北京智源人工智能研究院和華為泊松實驗室等機構提出的深度研究智能體。WebThinker賦能大型推理模型(LRMs)在推理過程中自主進行...