標(biāo)簽：多模態(tài)學(xué)習(xí)

超越想象的未來：揭秘1240億參數(shù)的Pixtral Large多模態(tài)模型！

支持中文。

1年前 (2024)

什么是多模態(tài)深度學(xué)習(xí)？定義、原因、應(yīng)用和挑戰(zhàn)

多模態(tài)深度學(xué)習(xí)（英文名：Multimodal Deep Learning）是人工智能（AI）的一個(gè)子領(lǐng)域，其重點(diǎn)是開發(fā)能夠同時(shí)處理和學(xué)習(xí)多種類型數(shù)據(jù)的模型。本文解釋了其定義...

閱讀原文

AI百科

1年前 (2024)

IP-Adapter

IP-Adapter（Image Prompt Adapter）是一種專門為預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型（如Stable Diffusion）設(shè)計(jì)的適配器，目的是讓文生圖模型能夠利用圖像提示來生...

閱讀原文

AI工具

1年前 (2024)

DiffusionGPT

DiffusionGPT是由來自字節(jié)跳動(dòng)與中山大學(xué)的研究人員推出的一個(gè)開源的大模型（LLM）驅(qū)動(dòng)的文本到圖像生成系統(tǒng)，旨在解決文生圖領(lǐng)域無法處理不同的輸入或者僅限...

閱讀原文

AI工具

1年前 (2024)

DiT

DiT（Diffusion Transformers）是一種新型的擴(kuò)散模型，由William Peebles（Sora的研發(fā)負(fù)責(zé)人之一）與紐約大學(xué)助理教授謝賽寧提出，結(jié)合了去噪擴(kuò)散概率模型（...

閱讀原文

AI工具

1年前 (2024)

CogVLM2

CogVLM2是由智譜AI推出的新一代多模態(tài)大模型，在視覺和語(yǔ)言理解方面實(shí)現(xiàn)了顯著的性能提升，支持高達(dá)8K的文本長(zhǎng)度和1344*1344分辨率的圖像輸入，具備強(qiáng)大的文...

閱讀原文

AI工具

1年前 (2024)

MOFA-Video

MOFA-Video是由騰訊AI實(shí)驗(yàn)室和東京大學(xué)的研究人員開源的一個(gè)可控性的圖像生成視頻的模型，該技術(shù)利用生成運(yùn)動(dòng)場(chǎng)適應(yīng)器對(duì)圖像進(jìn)行動(dòng)畫處理以生成視頻。

閱讀原文

AI工具

1年前 (2024)

PixVerse V2

PixVerse V2是愛詩(shī)科技最新發(fā)布的AI視頻生成產(chǎn)品，基于Diffusion+Transformer（DiT）架構(gòu)，提供更長(zhǎng)、更一致、更有趣的視頻生成體驗(yàn)。引入自研時(shí)空注意力機(jī)制...

閱讀原文

AI工具

1年前 (2024)

ControlNeXt

ControlNeXt是一種新型的AI圖像和視頻可控生成框架，由香港中文大學(xué)和商湯科技聯(lián)合開發(fā)。采用輕量化控制模塊和創(chuàng)新的交叉歸一化技術(shù)，大幅降低計(jì)算資源和訓(xùn)練...

閱讀原文

AI項(xiàng)目和框架

1年前 (2024)

CogView-3-Plus

CogView-3-Plus是智譜AI最新推出的AI文生圖模型，采用Transformer架構(gòu)替代傳統(tǒng)UNet，優(yōu)化了擴(kuò)散模型的噪聲規(guī)劃。CogView-3-Plus在圖像生成方面表現(xiàn)出色，能根...

閱讀原文

AI工具

1年前 (2024)

Video-LLaVA2

Video-LLaVA2是由北京大學(xué)ChatLaw課題組研發(fā)的開源多模態(tài)智能理解系統(tǒng)，通過創(chuàng)新的時(shí)空卷積（STC）連接器和音頻分支，提升了視頻和音頻理解能力。模型在視頻...

閱讀原文

AI工具

1年前 (2024)

LLaVA-OneVision

LLaVA-OneVision是字節(jié)跳動(dòng)推出開源的多模態(tài)AI模型，LLaVA-OneVision通過整合數(shù)據(jù)、模型和視覺表示的見解，能同時(shí)處理單圖像、多圖像和視頻場(chǎng)景下的計(jì)算機(jī)視...

閱讀原文

AI工具

1年前 (2024)

PGTFormer

PGTFormer是先進(jìn)的視頻人臉修復(fù)框架，通過解析引導(dǎo)的時(shí)間一致性變換器來恢復(fù)視頻中的高保真細(xì)節(jié)，同時(shí)增強(qiáng)時(shí)間連貫性。該方法無需預(yù)對(duì)齊，基于語(yǔ)義解析選擇最...

閱讀原文

AI工具

1年前 (2024)

什么是嵌入式學(xué)習(xí)（Embedded Learning）

嵌入式學(xué)習(xí)（Embedded Learning）是一種創(chuàng)新的教育模式，將學(xué)習(xí)過程無縫地融入到日常工作和活動(dòng)中。嵌入式學(xué)習(xí)認(rèn)為，當(dāng)學(xué)習(xí)內(nèi)容與工作緊密相關(guān)時(shí)，員工的學(xué)習(xí)...

閱讀原文

AI百科

1年前 (2024)

什么是嵌入表示（Embedding Representations）

嵌入表示（Embedding Representations）是將實(shí)體（如單詞、圖像或用戶）映射到連續(xù)的向量空間的過程，這些向量捕捉實(shí)體的內(nèi)在屬性和相互關(guān)系。在自然語(yǔ)言處理...

閱讀原文

AI百科

1年前 (2024)

1 234