Follow-Your-Click

AI工具1年前 (2024)發布 AI工具集

Follow-Your-Click是一款由騰訊公司的混元團隊與清華大學和香港科技大學的研究人員聯合開發的圖像到視頻（Image-to-Video，簡稱I2V）生成模型。該模型的獨特之處在于，用戶僅需通過簡單的點擊和簡短的動作提示，即可將靜態圖像轉化為動態視頻，生成局部動畫效果，克服了以往技術只能對整個場景進行移動的局限性。

Follow-Your-Click是什么

Follow-Your-Click是一項創新的圖像到視頻生成技術，旨在通過用戶友好的交互方式，讓用戶輕松地將靜態圖像動畫化。用戶可以通過點擊選擇感興趣的區域，并輸入簡單的動作提示，來實現所需的動畫效果。這種方法在動圖庫中引入了局部動畫的概念，使得用戶能夠將圖像中的特定部分賦予生命。

Follow-Your-Click

Follow-Your-Click的官網入口

官方項目主頁：https://follow-your-click.github.io/
arXiv研究論文：https://arxiv.org/abs/2403.08268（注：源碼和Demo預計4月份上線）
GitHub代碼庫：https://github.com/mayuelala/FollowYourClick

Follow-Your-Click的主要功能

直觀的用戶交互：Follow-Your-Click為用戶提供了簡潔明了的控制界面，用戶只需簡單點擊圖像，即可選擇動畫區域，并用簡短的描述定義動作類型。
局部動畫生成：用戶可以針對圖像中具體的區域進行動畫處理，使其產生生動的動態效果，例如使物體微笑、搖動或移動。
多對象動畫支持：該模型能夠同時對圖像中的多個對象進行動畫處理，幫助用戶創造更豐富和復雜的動態場景。
簡短動作提示：用戶只需提供簡潔的動作描述，模型便能理解并生成相應的動畫效果，從而簡化了動畫制作的過程。
高質量視頻生成：借助先進的技術策略，如第一幀遮罩策略和基于光流的幅度控制，確保生成的視頻質量高且真實。
速度控制：用戶可以精確控制動畫對象的速度，滿足多樣化的動畫需求。

Follow-Your-Click的工作原理

用戶交互：用戶首先通過點擊圖像上的特定區域選擇需要動畫的對象，接著提供簡短的動作提示，如“搖動”或“微笑”，以定義所選區域的動畫行為。
圖像分割：為了將用戶的點擊轉化為可用于動畫的區域掩碼，框架集成了SAM（Segment Anything）工具，以高質量生成對象掩碼。
第一幀遮罩策略：為提升視頻生成的質量，框架采用第一幀遮罩策略，通過隨機遮罩輸入圖像的一部分，增強模型學習時間相關性的能力。
增強模塊：該模塊通過新的交叉注意力層，提升模型對簡短動作提示的響應能力。訓練階段使用短動作提示，而推理階段則將這些提示輸入到增強模塊中。
基于光流的幅度控制：該方法通過計算光流的平均幅度來控制強度，確保在所有幀中一致地應用速率。
視頻生成：在推理階段，用戶的點擊位置和動作提示被用于生成動畫視頻，模型結合用戶指定的區域掩碼和動作提示，生成連貫的動畫幀，同時保持輸入圖像其它部分靜止。