標簽:多模態學習
什么是多模態深度學習?定義、原因、應用和挑戰
多模態深度學習(英文名:Multimodal Deep Learning)是人工智能(AI)的一個子領域,其重點是開發能夠同時處理和學習多種類型數據的模型。本文解釋了其定義...
IP-Adapter
IP-Adapter(Image Prompt Adapter)是一種專門為預訓練的文本到圖像擴散模型(如Stable Diffusion)設計的適配器,目的是讓文生圖模型能夠利用圖像提示來生...
DiffusionGPT
DiffusionGPT是由來自字節跳動與中山大學的研究人員推出的一個開源的大模型(LLM)驅動的文本到圖像生成系統,旨在解決文生圖領域無法處理不同的輸入或者僅限...
PixVerse V2
PixVerse V2是愛詩科技最新發布的AI視頻生成產品,基于Diffusion+Transformer(DiT)架構,提供更長、更一致、更有趣的視頻生成體驗。引入自研時空注意力機制...
ControlNeXt
ControlNeXt是一種新型的AI圖像和視頻可控生成框架,由香港中文大學和商湯科技聯合開發。采用輕量化控制模塊和創新的交叉歸一化技術,大幅降低計算資源和訓練...
CogView-3-Plus
CogView-3-Plus是智譜AI最新推出的AI文生圖模型,采用Transformer架構替代傳統UNet,優化了擴散模型的噪聲規劃。CogView-3-Plus在圖像生成方面表現出色,能根...
Video-LLaVA2
Video-LLaVA2是由北京大學ChatLaw課題組研發的開源多模態智能理解系統,通過創新的時空卷積(STC)連接器和音頻分支,提升了視頻和音頻理解能力。模型在視頻...
LLaVA-OneVision
LLaVA-OneVision是字節跳動推出開源的多模態AI模型,LLaVA-OneVision通過整合數據、模型和視覺表示的見解,能同時處理單圖像、多圖像和視頻場景下的計算機視...
什么是嵌入式學習(Embedded Learning)
嵌入式學習(Embedded Learning)是一種創新的教育模式,將學習過程無縫地融入到日常工作和活動中。嵌入式學習認為,當學習內容與工作緊密相關時,員工的學習...
什么是嵌入表示(Embedding Representations)
嵌入表示(Embedding Representations)是將實體(如單詞、圖像或用戶)映射到連續的向量空間的過程,這些向量捕捉實體的內在屬性和相互關系。在自然語言處理...