標(biāo)簽:多模態(tài)學(xué)習(xí)
cogvlm2-llama3-caption
cogvlm2-llama3-caption模型是一個(gè)基于CogVLM2架構(gòu)的視頻描述生成模型。模型用于理解視頻內(nèi)容,自動(dòng)生成描述視頻內(nèi)容的文本標(biāo)題或字幕。
CogVideoX-Fun
CogVideoX-Fun是一個(gè)基于CogVideoX結(jié)合EasyAnimate修改的AI視頻生成整合包,提供了更自由的生成條件,支持文字生成視頻、圖片生成視頻以及視頻生成視頻。工具...
CoCoClip.AI
CocoClip 是一款面向社交媒體內(nèi)容創(chuàng)作者的 AI 視頻創(chuàng)作和編輯平臺(tái),專門設(shè)計(jì)用于制作適合 YouTube Shorts、TikTok 和 Instagram Reels 等平臺(tái)的短視頻。提供...
MIP-Adapter
MIP-Adapter是一種個(gè)性化圖像生成技術(shù),由阿里巴巴集團(tuán)推出并開(kāi)源。基于IP-Adapter模型,進(jìn)一步擴(kuò)展其能力,支持同時(shí)處理多個(gè)參考圖像,生成更準(zhǔn)確和高質(zhì)量的...
DuoAttention
DuoAttention是新型的框架,由MIT韓松團(tuán)隊(duì)提出,用在提高大型語(yǔ)言模型(LLMs)在處理長(zhǎng)上下文時(shí)的推理效率。基于區(qū)分“檢索頭”和“流式頭”兩種注意力頭,優(yōu)化模...
DriveDreamer4D
DriveDreamer4D是用在提升自動(dòng)駕駛場(chǎng)景4D重建質(zhì)量的框架,基于世界模型先驗(yàn)增強(qiáng)4D駕駛場(chǎng)景的表示。框架能基于真實(shí)世界的駕駛數(shù)據(jù)合成新的軌跡視頻,用明確結(jié)...
MMBench-Video
MMBench-Video是新穎的長(zhǎng)視頻多題問(wèn)答基準(zhǔn)測(cè)試,是浙江大學(xué)、上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)和香港中文大學(xué)聯(lián)合推出的。MMBench-Video能全面評(píng)估大型視覺(jué)...