標簽:多模態學習

什么是多模態深度學習?定義、原因、應用和挑戰

多模態深度學習(英文名:Multimodal Deep Learning)是人工智能(AI)的一個子領域,其重點是開發能夠同時處理和學習多種類型數據的模型。本文解釋了其定義...
閱讀原文

IP-Adapter

IP-Adapter(Image Prompt Adapter)是一種專門為預訓練的文本到圖像擴散模型(如Stable Diffusion)設計的適配器,目的是讓文生圖模型能夠利用圖像提示來生...
閱讀原文

DiffusionGPT

DiffusionGPT是由來自字節跳動與中山大學的研究人員推出的一個開源的大模型(LLM)驅動的文本到圖像生成系統,旨在解決文生圖領域無法處理不同的輸入或者僅限...
閱讀原文

DiT

DiT(Diffusion Transformers)是一種新型的擴散模型,由William Peebles(Sora的研發負責人之一) 與紐約大學助理教授謝賽寧提出,結合了去噪擴散概率模型(...
閱讀原文

CogVLM2

CogVLM2是由智譜AI推出的新一代多模態大模型,在視覺和語言理解方面實現了顯著的性能提升,支持高達8K的文本長度和1344*1344分辨率的圖像輸入,具備強大的文...
閱讀原文

MOFA-Video

MOFA-Video是由騰訊AI實驗室和東京大學的研究人員開源的一個可控性的圖像生成視頻的模型,該技術利用生成運動場適應器對圖像進行動畫處理以生成視頻。
閱讀原文

PixVerse V2

PixVerse V2是愛詩科技最新發布的AI視頻生成產品,基于Diffusion+Transformer(DiT)架構,提供更長、更一致、更有趣的視頻生成體驗。引入自研時空注意力機制...
閱讀原文

ControlNeXt

ControlNeXt是一種新型的AI圖像和視頻可控生成框架,由香港中文大學和商湯科技聯合開發。采用輕量化控制模塊和創新的交叉歸一化技術,大幅降低計算資源和訓練...
閱讀原文

CogView-3-Plus

CogView-3-Plus是智譜AI最新推出的AI文生圖模型,采用Transformer架構替代傳統UNet,優化了擴散模型的噪聲規劃。CogView-3-Plus在圖像生成方面表現出色,能根...
閱讀原文

Video-LLaVA2

Video-LLaVA2是由北京大學ChatLaw課題組研發的開源多模態智能理解系統,通過創新的時空卷積(STC)連接器和音頻分支,提升了視頻和音頻理解能力。模型在視頻...
閱讀原文

LLaVA-OneVision

LLaVA-OneVision是字節跳動推出開源的多模態AI模型,LLaVA-OneVision通過整合數據、模型和視覺表示的見解,能同時處理單圖像、多圖像和視頻場景下的計算機視...
閱讀原文

PGTFormer

PGTFormer是先進的視頻人臉修復框架,通過解析引導的時間一致性變換器來恢復視頻中的高保真細節,同時增強時間連貫性。該方法無需預對齊,基于語義解析選擇最...
閱讀原文

什么是嵌入式學習(Embedded Learning)

嵌入式學習(Embedded Learning)是一種創新的教育模式,將學習過程無縫地融入到日常工作和活動中。嵌入式學習認為,當學習內容與工作緊密相關時,員工的學習...
閱讀原文

什么是嵌入表示(Embedding Representations)

嵌入表示(Embedding Representations)是將實體(如單詞、圖像或用戶)映射到連續的向量空間的過程,這些向量捕捉實體的內在屬性和相互關系。在自然語言處理...
閱讀原文

ImageBind

ImageBind是Meta公司推出的開源多模態AI模型,將文本、音頻、視覺、溫度和運動數據等六種不同類型的信息整合到一個統一的嵌入空間中。模型通過圖像模態作為橋...
閱讀原文
1234