標(biāo)簽:視頻分析

KuaiFormer:智能音響重塑你的聽覺體驗(yàn)

KuaiFormer是快手技術(shù)團(tuán)隊(duì)推出的基于Transformer的檢索框架,用在大規(guī)模內(nèi)容推薦系統(tǒng)。基于重新定義檢索流程,從傳統(tǒng)的分?jǐn)?shù)估計任務(wù)轉(zhuǎn)變?yōu)門ransformer驅(qū)動的“...
閱讀原文

VideoPrism

VideoPrism是一個由谷歌研究團(tuán)隊(duì)開發(fā)的通用視頻編碼器,旨在通過一個單一的凍結(jié)模型來處理多種視頻理解任務(wù)。該模型能夠從視頻中提取豐富的語義表示,使其能...
閱讀原文

ExVideo

ExVideo是由阿里巴巴和華東師大的研究人員推出的一種視頻合成模型的后調(diào)優(yōu)技術(shù),能夠擴(kuò)展現(xiàn)有視頻合成模型的時間尺度,以生成更長的視頻。該團(tuán)隊(duì)基于Stable V...
閱讀原文

MOFA-Video

MOFA-Video是由騰訊AI實(shí)驗(yàn)室和東京大學(xué)的研究人員開源的一個可控性的圖像生成視頻的模型,該技術(shù)利用生成運(yùn)動場適應(yīng)器對圖像進(jìn)行動畫處理以生成視頻。
閱讀原文

商湯如影

商湯如影是商湯科技推出的AI數(shù)字人視頻生成平臺,通過商湯的大模型技術(shù),創(chuàng)建出高度逼真的數(shù)字人形象,用于教育、金融、營銷等多個行業(yè)。平臺提供快速定制、...
閱讀原文

FineVideo

FineVideo是由Hugging Face推出的一個大型多模態(tài)視頻數(shù)據(jù)集,專注于視頻理解領(lǐng)域中的復(fù)雜任務(wù),如情緒分析、故事敘述和媒體編輯。FineVideo包含超過43,000個Y...
閱讀原文

VideoAgent

VideoAgent是一種自改進(jìn)的視頻生成系統(tǒng),由斯坦福大學(xué)、滑鐵盧大學(xué)、DeepMind等機(jī)構(gòu)的研究人員共同推出。根據(jù)圖像觀察和語言指令生成視頻計劃,轉(zhuǎn)換為機(jī)器人...
閱讀原文

MMBench-Video

MMBench-Video是新穎的長視頻多題問答基準(zhǔn)測試,是浙江大學(xué)、上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)和香港中文大學(xué)聯(lián)合推出的。MMBench-Video能全面評估大型視覺...
閱讀原文

MotionCLR

MotionCLR是基于注意力機(jī)制的人體動作生成和編輯模型,能根據(jù)文本提示生成動作,支持用戶進(jìn)行交互式編輯,如動作強(qiáng)調(diào)、減弱、替換、擦除和風(fēng)格轉(zhuǎn)移。MotionCL...
閱讀原文
12