VideoGrain

VideoGrain – 悉尼科技大學和浙大推出的視頻編輯框架

VideoGrain是什么

VideoGrain是由悉尼科技大學與浙江大合開發的一款零樣本多粒度視頻編輯框架，能夠實現對視頻的類別級、實例級和部件級的精細化修改。該框架結合了調節時空交叉注意力與自注意力機制，顯著增強了文本提示對目標區域的控制能力，并確保區域特征之間的分離，從而有效解決了現有擴散模型中存在的語義錯位和特征耦合問題。VideoGrain無需額外的參數調整，能夠在真實場景中提供高質量的視頻編輯效果，并保持時間的一致性。與現有的T2I和T2V方法相比，VideoGrain在多粒度編輯任務中表現更為優異，為視頻創作提供了更靈活且精確的工具。

VideoGrain

VideoGrain的主要功能

多粒度視頻編輯：允許用戶針對視頻中的不同對象進行分類編輯（例如將一名角色轉變為“蜘蛛俠”，而另一名角色則變為“北極熊”），或局部修改對象（如改變服裝顏色或添加配飾）。
文本驅動的區域控制：通過自然語言提示，精確控制視頻中特定區域，實現理想的編輯效果。
時間一致性：在編輯過程中，確保視頻的時間連貫性，避免因編輯而引起的幀間閃爍或不自然的過渡效果。
無需參數調整：作為一款零樣本編輯工具，VideoGrain不需要對模型進行額外的訓練或參數調整。
高效計算性能：在測試中表現出較低的內存占用和較快的編輯速度，非常適合實時視頻編輯的應用。

VideoGrain的技術原理

交叉注意力調節：通過調節交叉注意力層，增強文本提示對目標區域的聚焦能力，同時抑制無關區域的注意力。該機制將文本提示與視頻幀的空間區域綁定，通過調整查詢-鍵對的注意力權重，使文本特征集中在相應區域，實現精準的文本到區域的控制。
自注意力調節：在自注意力層中，增強區域內特征的自注意力，減少區域間的干擾。這樣可以避免因類別特征耦合而導致的編輯錯誤（例如將不同實例視作同一類別），確保每個查詢只關注其目標區域，從而保持特征的分離與編輯的性。