Imagen、Phenaki是Google上個月公布的兩個文字轉影片的AI模型,前者強調具有深刻語言理解能力,能生成相片等級影片,而後者則能將多段文字提示合成長度較長、包含不同場景的影片。不同於Imagen僅能生成數秒影片,Phenaki則可生成長數分鐘的影片。
Imagen將透過AI Test Kitchen App開放給美、英、加拿大、澳洲、紐西蘭及肯亞的英語用戶測試。Google 8月宣布AI Test Kitchen App,主要用於測試Google AI技術。Google第一批測試的技術是對話AI模型LaMDA(Language Model for Dialogue Applications)。
我們介紹了 Phenaki,這是一種能夠在給定一系列文本提示的情況下進行逼真的視頻合成的模型。由于計算成本、高質量文本視頻數據的數量有限以及視頻長度可變,從文本生成視頻尤其具有挑戰性。為了解決這些問題,我們引入了一種用于學習視頻表示的新因果模型,該模型將視頻壓縮為離散標記的小型表示。這個分詞器及時使用因果注意力,這使得它可以處理可變長度的視頻。為了從文本生成視頻標記,我們使用了一個以預先計算的文本標記為條件的雙向屏蔽轉換器。生成的視頻令牌隨后被去令牌化以創建實際視頻。為了解決數據問題,我們展示了對大量圖像文本對以及較少數量的視頻文本示例的聯合訓練如何產生超出視頻數據集中可用內容的泛化。與之前的視頻生成方法相比,Phenaki 可以在開放域中以一系列提示(即時間可變文本或故事)為條件生成任意長視頻。據我們所知,這是第一次有論文研究從時間變量提示生成視頻。此外,所提出的視頻編碼器-解碼器在時空質量和每個視頻的令牌數量方面優于文獻中當前使用的所有每幀基線。Phenaki 可以根據開放域中的一系列提示(即時間可變文本或故事)生成任意長視頻。據我們所知,這是第一次有論文研究從時間變量提示生成視頻。此外,所提出的視頻編碼器-解碼器在時空質量和每個視頻的令牌數量方面優于文獻中當前使用的所有每幀基線。Phenaki 可以根據開放域中的一系列提示(即時間可變文本或故事)生成任意長視頻。據我們所知,這是第一次有論文研究從時間變量提示生成視頻。此外,所提出的視頻編碼器-解碼器在時空質量和每個視頻的令牌數量方面優于文獻中當前使用的所有每幀基線。

數據統計
數據評估
本站OpenI提供的Phenaki都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 5月 8日 下午5:35收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。