Qihoo-T2X

Qihoo-T2X – 360 AI 研究院和中山大學開源的高效多模態生成模型

Qihoo-T2X是什么

Qihoo-T2X 是由360 AI 研究院與中山大合開發的一款高效多模態生成模型，基于代理標記化擴散 Transformer（PT-DiT）架構。該模型引入了稀疏代理標記注意力機制，顯著減少了傳統擴散 Transformer 在全局自注意力計算中的冗余，結合窗口注意力和移位窗口注意力，提升了細節建模的能力。Qihoo-T2X 可支持多項任務，包括文本到圖像（T2I）、文本到視頻（T2V）以及文本到多視圖（T2MV）生成。

Qihoo-T2X

Qihoo-T2X的主要功能

文本到圖像生成：根據用戶輸入的文本描述，生成高質量且分辨率極高的圖像，確保生成內容與文本描述高度一致，適合用于創意設計和藝術創作等領域。
文本到視頻生成：能夠根據文本描述生成連貫的視頻內容，支持動態場景和視頻序列的生成，適用于視頻創作和動畫制作。
文本到多視圖生成：根據文本描述生成同一物體或場景的多角度圖像，適合于3D對象的多視角展示，支持虛擬現實（VR）和增強現實（AR）應用。
高效生成能力：基于優化的代理標記化注意力機制，顯著降低了計算復雜度，使得高分辨率圖像和長視頻的生成更加高效，從而減少了訓練和推理成本。

Qihoo-T2X的技術原理

代理標記化注意力機制：傳統的擴散 Transformer 采用全局自注意力機制，計算復雜度較高且存在冗余。PT-DiT 通過在每個時空窗口內計算平均標記作為代理標記，減少了計算量，并通過交叉注意力機制將全局語義信息注入所有潛在標記，確保有效的信息傳播。
窗口注意力與移位窗口注意力：為增強局部細節建模，PT-DiT 引入窗口注意力機制，針對局部窗口內的標記進行自注意力計算。移位窗口注意力機制則用于避免窗口劃分造成的“網格效應”，進一步提升生成質量。
稀疏代理標記的高效處理：通過稀疏代理標記機制，PT-DiT 在處理高分辨率圖像和長視頻時，顯著降低了計算復雜度，同時保持生成內容的質量。
多任務適應能力：PT-DiT 的架構設計允許其無縫適應圖像生成、視頻生成和多視圖生成等多種任務，無需進行重大結構調整。