AI項目和框架

TicVoice 7.0

TicVoice 7.0 是出門問問推出的第七代高品質 TTS(語音合成)引擎,基于新一代語音生成模型 Spark-TTS 。TicVoice 7.0基于創新的 BiCodec 編碼方式,將語音分...
閱讀原文

GEN3C

GEN3C 是NVIDIA、多倫多大學和向量研究所推出的新型生成式視頻模型,基于精確的相機控制和時空一致性生成高質量的 3D 視頻內容。GEN3C構建基于點云的 3D 緩存...
閱讀原文

Mercury Coder

Mercury Coder 是 Inception Labs 推出的首個擴散型大語言模型(dLLM),是 Mercury 系列中專門用在代碼生成的模型。Mercury Coder基于“從粗到細”的生成方式...
閱讀原文

SuperGPQA

SuperGPQA 是字節跳動豆包大模型團隊聯合 M-A-P 推出的全面覆蓋 285 個研究生級學科、包含 26529 道專業題目的知識推理基準測試集。解決傳統評測基準學科覆蓋...
閱讀原文

SpeciesNet

SpeciesNet 是 Google 開源的人工智能模型,通過分析相機陷阱拍攝的照片來識別動物物種。基于超過 6500 萬張圖像訓練而成,能識別超過 2000 種標簽,包括動物...
閱讀原文

GaussianCity

GaussianCity 是南洋理工大學 S-Lab 團隊推出的高效無邊界3D城市生成框架,基于3D高斯繪制(3D-GS)技術。引入緊湊的 BEV-Point 表示方法,將場景的顯存(VRA...
閱讀原文

Asyncflow v1.0

Asyncflow v1.0 是播客平臺 Podcastle 推出的 AI 文本轉語音模型。支持超過 450 種語音選項,能為文本內容生成高質量的語音朗讀,適用于多種語言和風格。
閱讀原文

NextGenAI

NextGenAI是OpenAI推出的全球性聯盟,基于AI技術推動教育和研究的進步。NextGenAI聯合包括哈佛大學、麻省理工學院、牛津大學等在內的15所頂尖大學和機構,Ope...
閱讀原文

NotaGen

NotaGen 是中央音樂學院、北京航空航天大學、清華大學等機構推出的音樂生成模型,基于模仿大型語言模型(LLM)的訓練范式生成高質量的古典樂譜。NotaGen 基于...
閱讀原文

DiffRhythm

DiffRhythm 是西北工業大學與香港中文大學(深圳)聯合開發的端到端音樂生成工具,基于潛擴散模型(Latent Diffusion)技術,能快速生成包含人聲和伴奏的完整...
閱讀原文

OmniAlign-V

OmniAlign-V 是上海交通大學、上海AI Lab、南京大學、復旦大學和浙江大學聯合推出的專為提升多模態大語言模型(MLLMs)與人類偏好的對齊能力設計的高質量數據...
閱讀原文

TrendPublish

TrendPublish 是基于 AI 的趨勢發現和內容發布系統。基于多源數據采集,從 Twitter/X、網站等渠道獲取信息,用 DeepseekAI、千問等 AI 服務進行智能總結、關...
閱讀原文

Proxy Lite

Proxy Lite 是開源的輕量級視覺語言模型(VLM),參數量為3B,支持自動化網頁任務。Proxy Lite 能像人類一樣操作瀏覽器,完成網頁交互、數據抓取、表單填寫等...
閱讀原文

WeGen

WeGen 是中國科學技術大學聯合上海交通大學、微信團隊、中國科學院等機構推出的統一多模態生成模型,基于自然對話實現多樣化的視覺生成任務。WeGen結合多模態...
閱讀原文

DiffBrush

DiffBrush是北京郵電大學、清華大學、中國電信人工智能研究所和西北工業大學推出的,無需訓練的圖像生成與編輯框架,支持用戶基于手繪草圖直觀地控制圖像生成...
閱讀原文
16364656667155