標(biāo)簽:多模態(tài)學(xué)習(xí)
什么是多模態(tài)深度學(xué)習(xí)?定義、原因、應(yīng)用和挑戰(zhàn)
多模態(tài)深度學(xué)習(xí)(英文名:Multimodal Deep Learning)是人工智能(AI)的一個(gè)子領(lǐng)域,其重點(diǎn)是開發(fā)能夠同時(shí)處理和學(xué)習(xí)多種類型數(shù)據(jù)的模型。本文解釋了其定義...
IP-Adapter
IP-Adapter(Image Prompt Adapter)是一種專門為預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型(如Stable Diffusion)設(shè)計(jì)的適配器,目的是讓文生圖模型能夠利用圖像提示來生...
DiffusionGPT
DiffusionGPT是由來自字節(jié)跳動(dòng)與中山大學(xué)的研究人員推出的一個(gè)開源的大模型(LLM)驅(qū)動(dòng)的文本到圖像生成系統(tǒng),旨在解決文生圖領(lǐng)域無法處理不同的輸入或者僅限...
MOFA-Video
MOFA-Video是由騰訊AI實(shí)驗(yàn)室和東京大學(xué)的研究人員開源的一個(gè)可控性的圖像生成視頻的模型,該技術(shù)利用生成運(yùn)動(dòng)場(chǎng)適應(yīng)器對(duì)圖像進(jìn)行動(dòng)畫處理以生成視頻。
PixVerse V2
PixVerse V2是愛詩(shī)科技最新發(fā)布的AI視頻生成產(chǎn)品,基于Diffusion+Transformer(DiT)架構(gòu),提供更長(zhǎng)、更一致、更有趣的視頻生成體驗(yàn)。引入自研時(shí)空注意力機(jī)制...
ControlNeXt
ControlNeXt是一種新型的AI圖像和視頻可控生成框架,由香港中文大學(xué)和商湯科技聯(lián)合開發(fā)。采用輕量化控制模塊和創(chuàng)新的交叉歸一化技術(shù),大幅降低計(jì)算資源和訓(xùn)練...
CogView-3-Plus
CogView-3-Plus是智譜AI最新推出的AI文生圖模型,采用Transformer架構(gòu)替代傳統(tǒng)UNet,優(yōu)化了擴(kuò)散模型的噪聲規(guī)劃。CogView-3-Plus在圖像生成方面表現(xiàn)出色,能根...
Video-LLaVA2
Video-LLaVA2是由北京大學(xué)ChatLaw課題組研發(fā)的開源多模態(tài)智能理解系統(tǒng),通過創(chuàng)新的時(shí)空卷積(STC)連接器和音頻分支,提升了視頻和音頻理解能力。模型在視頻...
LLaVA-OneVision
LLaVA-OneVision是字節(jié)跳動(dòng)推出開源的多模態(tài)AI模型,LLaVA-OneVision通過整合數(shù)據(jù)、模型和視覺表示的見解,能同時(shí)處理單圖像、多圖像和視頻場(chǎng)景下的計(jì)算機(jī)視...
什么是嵌入式學(xué)習(xí)(Embedded Learning)
嵌入式學(xué)習(xí)(Embedded Learning)是一種創(chuàng)新的教育模式,將學(xué)習(xí)過程無縫地融入到日常工作和活動(dòng)中。嵌入式學(xué)習(xí)認(rèn)為,當(dāng)學(xué)習(xí)內(nèi)容與工作緊密相關(guān)時(shí),員工的學(xué)習(xí)...
什么是嵌入表示(Embedding Representations)
嵌入表示(Embedding Representations)是將實(shí)體(如單詞、圖像或用戶)映射到連續(xù)的向量空間的過程,這些向量捕捉實(shí)體的內(nèi)在屬性和相互關(guān)系。在自然語(yǔ)言處理...
粵公網(wǎng)安備 44011502001135號(hào)