AI項目和框架

OmniHuman

OmniHuman 是字節(jié)跳動推出的端到端多模態(tài)條件化人類視頻生成框架,能基于單張人類圖像和運動信號(如音頻、視頻或兩者的組合)生成逼真的人類視頻。OmniHuman...
閱讀原文

VideoReward

VideoReward 是香港中文大學(xué)、清華大學(xué)、快手科技等聯(lián)合創(chuàng)建的視頻生成偏好數(shù)據(jù)集及獎勵模型。包含182,000條標(biāo)注數(shù)據(jù),涵蓋視覺質(zhì)量、運動質(zhì)量和文本對齊三個...
閱讀原文

MILS

MILS(Multimodal Iterative LLM Solver)是Meta AI提出的無需訓(xùn)練即可賦予大型語言模型(LLM)多模態(tài)能力的方法。通過多步推理,提示LLM生成候選輸出,對每...
閱讀原文

X-Prompt

X-Prompt是用于多模態(tài)視頻目標(biāo)分割的通用框架,解決傳統(tǒng)方法在極端光照、快速運動和背景干擾等復(fù)雜場景下的局限性。通過預(yù)訓(xùn)練一個基于 RGB 數(shù)據(jù)的視頻目標(biāo)分...
閱讀原文

BitsAI-CR

BitsAI-CR是字節(jié)跳動團隊推出的基于大型語言模型(LLM)的自動化代碼審查工具,通過兩階段處理流程實現(xiàn)高效代碼審查:RuleChecker 負責(zé)基于 219 條規(guī)則檢測潛...
閱讀原文

DiffSplat

DiffSplat是新型的 3D 生成方法,從文本提示和單視圖圖像快速生成 3D 高斯點陣(Gaussian Splats)。通過微調(diào)預(yù)訓(xùn)練的文本到圖像擴散模型,基于強大的 2D 先...
閱讀原文

Luma Ray2

Luma Ray2 是 Luma AI 推出的最新視頻生成模型,Ray2 基于 Luma 新的多模態(tài)架構(gòu)訓(xùn)練后展現(xiàn)出先進功能,該架構(gòu)的計算能力是 Ray1 的 10 倍。能生成快速連貫的...
閱讀原文

Pipecat

Pipecat是開源的Python框架,專注于構(gòu)建語音和多模態(tài)對話代理?;趦?nèi)置的語音識別、文本轉(zhuǎn)語音(TTS)和對話處理功能,簡化AI服務(wù)的復(fù)雜協(xié)調(diào)、網(wǎng)絡(luò)傳輸、音...
閱讀原文

RealtimeSTT

RealtimeSTT是開源的實時語音轉(zhuǎn)文本庫,專為低延遲應(yīng)用設(shè)計。有強大的語音活動檢測功能,可自動識別說話的開始與結(jié)束,通過WebRTCVAD和SileroVAD進行精準(zhǔn)檢測...
閱讀原文

Step R-mini

Step R-mini(全稱Step Reasoner mini)是階躍星辰推出的推理模型, 是 Step 系列模型家族的首個推理模型,擅長主動規(guī)劃、嘗試和反思,基于慢思考和反復(fù)驗證...
閱讀原文

GLM-Realtime

GLM-Realtime是智譜推出的全新端到端多模態(tài)模型,具備低延遲的視頻理解與語音交互能力,特別融入清唱功能,讓大模型在對話中能展現(xiàn)歌唱才能。模型支持長達2分...
閱讀原文

CogView-3-Flash

CogView-3-Flash 是智譜推出的首個免費AI圖像生成模型,能根據(jù)文本描述生成高審美分?jǐn)?shù)的圖像,支持多種分辨率,滿足專業(yè)領(lǐng)域需求。模型具備創(chuàng)意多樣性,基于...
閱讀原文

LlamaV-o1

LlamaV-o1是阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)等機構(gòu)提出的新多模態(tài)視覺推理模型,旨在提升大型語言模型的逐步視覺推理能力。引入視覺推理鏈基準(zhǔn)測試VRC-...
閱讀原文

Kokoro-TTS

Kokoro-TTS 是 hexgrad 開發(fā)的輕量級文本轉(zhuǎn)語音(TTS)模型,具有 8200 萬參數(shù)。基于 StyleTTS 2 和 ISTFTNet 的混合架構(gòu),采用純解碼器設(shè)計,不使用擴散模型...
閱讀原文

MinMo

MinMo是阿里巴巴通義實驗室FunAudioLLM團隊推出的多模態(tài)大模型,專注于實現(xiàn)無縫語音交互。MinMo擁有約80億參數(shù),基于多階段訓(xùn)練,在140萬小時多樣化語音數(shù)據(jù)...
閱讀原文
17980818283155