標簽:多模態學習
cogvlm2-llama3-caption
cogvlm2-llama3-caption模型是一個基于CogVLM2架構的視頻描述生成模型。模型用于理解視頻內容,自動生成描述視頻內容的文本標題或字幕。
CogVideoX-Fun
CogVideoX-Fun是一個基于CogVideoX結合EasyAnimate修改的AI視頻生成整合包,提供了更自由的生成條件,支持文字生成視頻、圖片生成視頻以及視頻生成視頻。工具...
CoCoClip.AI
CocoClip 是一款面向社交媒體內容創作者的 AI 視頻創作和編輯平臺,專門設計用于制作適合 YouTube Shorts、TikTok 和 Instagram Reels 等平臺的短視頻。提供...
MIP-Adapter
MIP-Adapter是一種個性化圖像生成技術,由阿里巴巴集團推出并開源?;贗P-Adapter模型,進一步擴展其能力,支持同時處理多個參考圖像,生成更準確和高質量的...
DuoAttention
DuoAttention是新型的框架,由MIT韓松團隊提出,用在提高大型語言模型(LLMs)在處理長上下文時的推理效率?;趨^分“檢索頭”和“流式頭”兩種注意力頭,優化模...
DriveDreamer4D
DriveDreamer4D是用在提升自動駕駛場景4D重建質量的框架,基于世界模型先驗增強4D駕駛場景的表示??蚣苣芑谡鎸嵤澜绲鸟{駛數據合成新的軌跡視頻,用明確結...
MMBench-Video
MMBench-Video是新穎的長視頻多題問答基準測試,是浙江大學、上海人工智能實驗室、上海交通大學和香港中文大學聯合推出的。MMBench-Video能全面評估大型視覺...
粵公網安備 44011502001135號