Show-o

AI工具1年前 (2024)發布 AI工具集

Show-o是什么

Show-o是一款集成了多模態理解與生成能力的統一Transformer模型。它通過結合自回歸和離散擴散建模技術，靈活應對多種視覺語言任務，包括視覺問答、文本生成圖像、文本引導的修復與擴展，以及混合模態生成等。Show-o在多模態理解和生成的基準測試中表現出色，其性能可與現有的專業模型相媲美，甚至更優。此外，它顯著減少了圖像生成所需的采樣步驟，從而提升了效率。Show-o支持多種下游應用，如文本引導的圖像修復和擴展，且無需額外的微調。

Show-o

Show-o的主要功能

視覺問題回答（VQA）：能夠理解圖像內容并回答與之相關的問題。
文本到圖像生成：根據文本描述生成相應的圖像，支持創意和多樣化的視覺輸出。
文本引導的圖像修復（Inpainting）：識別圖像中的缺失部分，并根據文本提示進行有效修復。
文本引導的圖像擴展（Extrapolation）：在已有圖像中添加新元素或擴展內容，基于文本描述進行拓展。
混合模態生成：結合文本描述生成視頻關鍵幀，為長視頻的生成開辟新途徑。
多模態理解與生成：整合視覺與語言信息，有效處理復雜的多模態任務。

Show-o的技術原理

自回歸與離散擴散建模的結合：Show-o模型獨特地將自回歸與離散擴散建模相結合，靈活處理各種不同的輸入和輸出模態。
基于預訓練的大型語言模型（LLM）：Show-o的架構基于預訓練的LLM，并在每個注意力層之前引入QK-Norm操作，提升了模型的穩定性與性能。
離散圖像標記：采用離散去噪擴散模擬離散圖像標記，簡化了對額外文本編碼器的需求。
統一的提示策略：設計了一種統一的提示策略，將圖像和文本標記化后形成輸入序列，以適應多種任務，如多模態理解和文本到圖像生成。
全注意力機制：引入全注意力機制，根據輸入序列的類型自適應地應用因果注意力或全注意力，文本標記使用因果注意力，而圖像標記則使用全注意力，將每個圖像標記與序列中的所有標記相互作用。
訓練目標：采用下一令牌預測（NTP）和遮罩令牌預測（MTP）兩種學習目標，進行自回歸與（離散）擴散建模。
混合模態生成潛力：展現了基于文本描述與視頻關鍵幀的混合模態生成的潛力，為長視頻生成提供了新思路。
降低采樣步驟：相較于自回歸圖像生成，Show-o所需的采樣步驟減少了約20倍，降低了計算資源的消耗，提升了模型的應用靈活性。