Pippo – Meta 推出的單圖生成多視角高清人像視頻模型
Pippo是什么
Pippo是由Meta Reality Labs開(kāi)發(fā)的一款先進(jìn)的圖像到視頻生成模型,能夠從單張照片生成1K分辨率的多視角高清晰度人像視頻。該模型采用了多視角擴(kuò)散變換器,并在30億張人像圖像上進(jìn)行了預(yù)訓(xùn)練,隨后在2500張專業(yè)捕捉的圖像上進(jìn)行了后訓(xùn)練。Pippo的關(guān)鍵技術(shù)包括ControlMLP模塊,旨在注入像素對(duì)齊的條件,以及注意力偏差技術(shù),使其在推理時(shí)能夠生成比訓(xùn)練時(shí)多出5倍以上的視角。該模型還引入了重投影誤差,以評(píng)估多視角生成的3D一致性。

Pippo的主要功能
- 多視角生成:Pippo可以從單張全身或面部照片生成多視角的高清視頻,支持全身、面部或頭部的生成需求。
- 高效內(nèi)容生成:借助多視角擴(kuò)散變換器,Pippo能夠生成多達(dá)5倍于訓(xùn)練視角的視頻內(nèi)容。
- 高分辨率支持:Pippo實(shí)現(xiàn)了1K分辨率下的一致多視角人像生成,為用戶提供更清晰的視覺(jué)體驗(yàn)。
- 空間錨點(diǎn)與ControlMLP:通過(guò)ControlMLP模塊的像素對(duì)齊條件,如Plücker射線和空間錨點(diǎn),實(shí)現(xiàn)更優(yōu)異的3D一致性。
- 自動(dòng)補(bǔ)全細(xì)節(jié):在處理單目視頻時(shí),Pippo能夠自動(dòng)填補(bǔ)缺失的細(xì)節(jié),例如鞋子、面部或頸部等。
Pippo的技術(shù)原理
- 多階段訓(xùn)練策略:
- 預(yù)訓(xùn)練階段:Pippo首先在30億張未標(biāo)注的人像圖像上進(jìn)行預(yù)訓(xùn)練,以捕獲豐富的特征信息。
- 中間訓(xùn)練階段:在高質(zhì)量工作室數(shù)據(jù)集上,模型聯(lián)合生成多個(gè)視角的圖像,利用低分辨率視圖進(jìn)行去噪,并通過(guò)淺層MLP粗略編碼目標(biāo)相機(jī)。
- 后訓(xùn)練階段:在高分辨率下對(duì)少量視圖進(jìn)行去噪,引入像素對(duì)齊控制(如空間錨點(diǎn)和Plücker射線),確保3D一致性。
- 像素對(duì)齊控制(ControlMLP模塊):通過(guò)ControlMLP模塊注入的像素對(duì)齊條件,如Plücker射線和空間錨點(diǎn),確保在推理階段固定為任意位置。
- 注意力偏差技術(shù):在推理階段,Pippo引入了注意力偏差技術(shù),使模型能夠生成比訓(xùn)練階段多出5倍以上的視角。
- 3D一致性評(píng)估指標(biāo):Pippo采用改進(jìn)的3D一致性評(píng)估指標(biāo)——重投影誤差(Re-projection Error),用于評(píng)估多視角生成的3D一致性。
Pippo的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://yashkant.github.io/pippo/
- Github倉(cāng)庫(kù):https://github.com/facebookresearch/pippo
- 技術(shù)論文:https://yashkant.github.io/pippo/pippo.pdf
Pippo的應(yīng)用場(chǎng)景
- 虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):Pippo能夠生成高質(zhì)量的多視角人像視頻,適用于VR和AR環(huán)境中的虛擬角色創(chuàng)建,增強(qiáng)用戶的沉浸體驗(yàn)。
- 影視制作:在影視后期制作中,Pippo可快速生成多視角的特效鏡頭,顯著降低拍攝成本和時(shí)間。
- 視頻會(huì)議:通過(guò)從單張照片生成多視角視頻,Pippo可以為遠(yuǎn)程參與者提供更自然的交互體驗(yàn),提升會(huì)議的效果。
- 游戲開(kāi)發(fā):Pippo可用于生成游戲中的角色動(dòng)畫(huà),提升游戲的視覺(jué)效果和玩家的沉浸感。
- 社交媒體和內(nèi)容創(chuàng)作:內(nèi)容創(chuàng)作者可以使用Pippo生成多視角視頻,為社交媒體平臺(tái)提供更豐富且吸引人的內(nèi)容。
常見(jiàn)問(wèn)題
- Pippo支持哪些類型的輸入照片?:用戶可以提供全身或面部的照片,Pippo能夠根據(jù)這些圖片生成多視角視頻。
- 生成的視頻質(zhì)量如何?:Pippo生成的視頻可達(dá)到1K分辨率,確保高清晰度和多視角體驗(yàn)。
- 使用Pippo需要哪些技術(shù)背景?:Pippo的使用相對(duì)簡(jiǎn)單,但對(duì)于模型的深入理解和應(yīng)用可能需要一定的技術(shù)背景。
- Pippo是否支持實(shí)時(shí)生成?:目前,Pippo主要用于離線生成視頻,對(duì)于實(shí)時(shí)生成的支持還需進(jìn)一步開(kāi)發(fā)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)