標簽:多模態學習

ImageBind

ImageBind是Meta公司推出的開源多模態AI模型,將文本、音頻、視覺、溫度和運動數據等六種不同類型的信息整合到一個統一的嵌入空間中。模型通過圖像模態作為橋...
閱讀原文

cogvlm2-llama3-caption

cogvlm2-llama3-caption模型是一個基于CogVLM2架構的視頻描述生成模型。模型用于理解視頻內容,自動生成描述視頻內容的文本標題或字幕。
閱讀原文

CogVideoX-Fun

CogVideoX-Fun是一個基于CogVideoX結合EasyAnimate修改的AI視頻生成整合包,提供了更自由的生成條件,支持文字生成視頻、圖片生成視頻以及視頻生成視頻。工具...
閱讀原文

CoCoClip.AI

CocoClip 是一款面向社交媒體內容創作者的 AI 視頻創作和編輯平臺,專門設計用于制作適合 YouTube Shorts、TikTok 和 Instagram Reels 等平臺的短視頻。提供...
閱讀原文

MIP-Adapter

MIP-Adapter是一種個性化圖像生成技術,由阿里巴巴集團推出并開源?;贗P-Adapter模型,進一步擴展其能力,支持同時處理多個參考圖像,生成更準確和高質量的...
閱讀原文

OpenR

OpenR是一個由倫敦大學學院(UCL)、上海交通大學、利物浦大學、香港科技大學(廣州)和西湖大學聯合開源的全鏈條訓練框架,旨在提升大型語言模型(LLM)的復...
閱讀原文

MoE++

MoE++是一種新型的混合專家(Mixture-of-Experts)架構,由昆侖萬維2050研究院與北大袁粒團隊聯合推出?;谝肓阌嬎懔繉<?,即零專家、復制專家和常數專家...
閱讀原文

DuoAttention

DuoAttention是新型的框架,由MIT韓松團隊提出,用在提高大型語言模型(LLMs)在處理長上下文時的推理效率?;趨^分“檢索頭”和“流式頭”兩種注意力頭,優化模...
閱讀原文

DriveDreamer4D

DriveDreamer4D是用在提升自動駕駛場景4D重建質量的框架,基于世界模型先驗增強4D駕駛場景的表示??蚣苣芑谡鎸嵤澜绲鸟{駛數據合成新的軌跡視頻,用明確結...
閱讀原文

MMBench-Video

MMBench-Video是新穎的長視頻多題問答基準測試,是浙江大學、上海人工智能實驗室、上海交通大學和香港中文大學聯合推出的。MMBench-Video能全面評估大型視覺...
閱讀原文

MotionCLR

MotionCLR是基于注意力機制的人體動作生成和編輯模型,能根據文本提示生成動作,支持用戶進行交互式編輯,如動作強調、減弱、替換、擦除和風格轉移。MotionCL...
閱讀原文

靈圖AI

靈圖AI是由廈門靈圖科技推出的AI輔助設計平臺,專為設計創作人群服務?;贏I算法,提供場景化的高效工具和資源,實現素材生成和設計生產力的提升。平臺功能...
閱讀原文

Anifusion

Anifusion是在線AI漫畫和動漫圖片制作平臺,通過人工智能技術,讓創作者無需繪畫技能也能制作出專業級別的漫畫和動漫藝術作品。用戶只需輸入描述性提示,AI能...
閱讀原文
1234