標(biāo)簽:多模態(tài)學(xué)習(xí)

cogvlm2-llama3-caption

cogvlm2-llama3-caption模型是一個(gè)基于CogVLM2架構(gòu)的視頻描述生成模型。模型用于理解視頻內(nèi)容,自動(dòng)生成描述視頻內(nèi)容的文本標(biāo)題或字幕。
閱讀原文

CogVideoX-Fun

CogVideoX-Fun是一個(gè)基于CogVideoX結(jié)合EasyAnimate修改的AI視頻生成整合包,提供了更自由的生成條件,支持文字生成視頻、圖片生成視頻以及視頻生成視頻。工具...
閱讀原文

CoCoClip.AI

CocoClip 是一款面向社交媒體內(nèi)容創(chuàng)作者的 AI 視頻創(chuàng)作和編輯平臺(tái),專門設(shè)計(jì)用于制作適合 YouTube Shorts、TikTok 和 Instagram Reels 等平臺(tái)的短視頻。提供...
閱讀原文

MIP-Adapter

MIP-Adapter是一種個(gè)性化圖像生成技術(shù),由阿里巴巴集團(tuán)推出并開(kāi)源。基于IP-Adapter模型,進(jìn)一步擴(kuò)展其能力,支持同時(shí)處理多個(gè)參考圖像,生成更準(zhǔn)確和高質(zhì)量的...
閱讀原文

OpenR

OpenR是一個(gè)由倫敦大學(xué)學(xué)院(UCL)、上海交通大學(xué)、利物浦大學(xué)、香港科技大學(xué)(廣州)和西湖大學(xué)聯(lián)合開(kāi)源的全鏈條訓(xùn)練框架,旨在提升大型語(yǔ)言模型(LLM)的復(fù)...
閱讀原文

MoE++

MoE++是一種新型的混合專家(Mixture-of-Experts)架構(gòu),由昆侖萬(wàn)維2050研究院與北大袁粒團(tuán)隊(duì)聯(lián)合推出。基于引入零計(jì)算量專家,即零專家、復(fù)制專家和常數(shù)專家...
閱讀原文

DuoAttention

DuoAttention是新型的框架,由MIT韓松團(tuán)隊(duì)提出,用在提高大型語(yǔ)言模型(LLMs)在處理長(zhǎng)上下文時(shí)的推理效率。基于區(qū)分“檢索頭”和“流式頭”兩種注意力頭,優(yōu)化模...
閱讀原文

DriveDreamer4D

DriveDreamer4D是用在提升自動(dòng)駕駛場(chǎng)景4D重建質(zhì)量的框架,基于世界模型先驗(yàn)增強(qiáng)4D駕駛場(chǎng)景的表示。框架能基于真實(shí)世界的駕駛數(shù)據(jù)合成新的軌跡視頻,用明確結(jié)...
閱讀原文

MMBench-Video

MMBench-Video是新穎的長(zhǎng)視頻多題問(wèn)答基準(zhǔn)測(cè)試,是浙江大學(xué)、上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)和香港中文大學(xué)聯(lián)合推出的。MMBench-Video能全面評(píng)估大型視覺(jué)...
閱讀原文

MotionCLR

MotionCLR是基于注意力機(jī)制的人體動(dòng)作生成和編輯模型,能根據(jù)文本提示生成動(dòng)作,支持用戶進(jìn)行交互式編輯,如動(dòng)作強(qiáng)調(diào)、減弱、替換、擦除和風(fēng)格轉(zhuǎn)移。MotionCL...
閱讀原文

靈圖AI

靈圖AI是由廈門靈圖科技推出的AI輔助設(shè)計(jì)平臺(tái),專為設(shè)計(jì)創(chuàng)作人群服務(wù)。基于AI算法,提供場(chǎng)景化的高效工具和資源,實(shí)現(xiàn)素材生成和設(shè)計(jì)生產(chǎn)力的提升。平臺(tái)功能...
閱讀原文

Anifusion

Anifusion是在線AI漫畫和動(dòng)漫圖片制作平臺(tái),通過(guò)人工智能技術(shù),讓創(chuàng)作者無(wú)需繪畫技能也能制作出專業(yè)級(jí)別的漫畫和動(dòng)漫藝術(shù)作品。用戶只需輸入描述性提示,AI能...
閱讀原文
1234