Sora終于來(lái)了,但卷王可靈已經(jīng)「拍」上了AI電影
機(jī)器之心原創(chuàng)編輯:楊文6個(gè)月迭代10余次,快手可靈一路狂飆。這次,輪到名導(dǎo)們下場(chǎng)整活了。短片一開(kāi)場(chǎng)就相當(dāng)震撼:鐘馗手持一把斬鬼劍,穿行在一片烏漆麻黑、虬枝盤(pán)曲的密林中。伴隨著一陣節(jié)奏急促的鑼鼓聲,野兔精、蛤蟆精、長(zhǎng)滿骷髏的樹(shù)妖接連現(xiàn)身,緊張恐怖的氣氛拉滿。但一聲長(zhǎng)喝下,鏡頭一轉(zhuǎn),手機(jī)屏幕彈出「勿擾模式」四個(gè)大字,底下滾動(dòng)著被攔截的各種信息:自動(dòng)記賬 APP、多人視頻會(huì)議、4 個(gè)未知號(hào)碼來(lái)電、183 條微信群消息、風(fēng)險(xiǎn)網(wǎng)站的跳轉(zhuǎn)鏈接,以及大 boss 正在打來(lái)的電話……最后畫(huà)面緩緩打出「休假期間,百鬼勿擾」的字幕。本以為是個(gè)中式志怪片,沒(méi)想到原來(lái)是個(gè)職場(chǎng)吐槽片。更讓人驚喜的是,這部由俞白眉導(dǎo)演打造的 5 分鐘短片,竟完全出自可靈 AI 之手。早在三個(gè)月前,快手可靈 AI 就聯(lián)合李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤(rùn)年、張吃魚(yú)、王子川、王卯卯等 9 位知名導(dǎo)演共同發(fā)起了「可靈 AI 導(dǎo)演共創(chuàng)計(jì)劃」,制作出品 9 部 AIGC 電影短片。12 月 6 日,導(dǎo)演們來(lái)交作業(yè)了。自嘲用普通話不會(huì)寫(xiě)劇本的賈樟柯,在自己首部 AIGC 電影短片《麥?zhǔn)铡分校柚伸` AI 的「對(duì)口型」功能,讓機(jī)器人說(shuō)上了山西汾陽(yáng)話。《臥虎藏龍》藝術(shù)指導(dǎo)葉錦添則采用可靈 AI 的「首尾幀」功能,描繪了一個(gè)外星快遞員在太空中的冒險(xiǎn)旅程。通過(guò) AI 技術(shù),每一幀畫(huà)面都逼真到讓人仿佛置身于一個(gè)真實(shí)的太空世界。導(dǎo)演王子川在其作品《雛菊》中,從計(jì)算機(jī)、機(jī)器人等現(xiàn)代科技產(chǎn)物與人的關(guān)系展開(kāi),大量使用可靈 AI 的「圖生視頻」功能,通過(guò)重復(fù)蒙太奇、高速剪輯以及特效鏡頭,為觀眾帶來(lái)強(qiáng)烈的視聽(tīng)沖擊。在助力影視創(chuàng)作方面,可靈 AI 最有發(fā)言權(quán)。快手科技副總裁、大模型團(tuán)隊(duì)負(fù)責(zé)人張迪表示,「2024 年視覺(jué)生成領(lǐng)域 AI 大模型發(fā)展迅速,可靈 AI 自 6 月發(fā)布以來(lái),已讓眾多用戶感受到其在視頻創(chuàng)作上的能力。」此次這 9 部具有實(shí)驗(yàn)性質(zhì)的電影短片,全部使用可靈 AI 進(jìn)行視頻生成。電影導(dǎo)演完全依托視頻生成大模型,深度參與電影級(jí)內(nèi)容創(chuàng)作,這在中國(guó)尚屬首次。作為中國(guó)首個(gè) AIGC 導(dǎo)演共創(chuàng)計(jì)劃的成果,這 9 部 AIGC 電影短片已在快手平臺(tái)上線,并被中國(guó)電影博物館永久收藏、放映展示。這既是對(duì)中國(guó)電影歷史的一次致敬,也是對(duì)未來(lái)電影創(chuàng)作的一次大膽探索。6 個(gè)月迭代十余次可靈 AI 是怎么煉成的?今年年初 Sora 一把火,徹底點(diǎn)燃了 AI 視頻生成這個(gè)賽道。6 月 6 日,快手率先推出自研的視頻生成大模型「可靈AI」,成為全球首個(gè)用戶可用的真實(shí)影像級(jí)視頻生成大模型。此后,可靈 AI 又接連上線了圖生視頻、視頻續(xù)寫(xiě)、筆刷等功能,不僅在畫(huà)面質(zhì)量、指令遵從和幅度等方面有顯著提升,還將生成視頻時(shí)長(zhǎng)延伸約 3 分鐘,創(chuàng)作者單次生成的文生視頻時(shí)長(zhǎng)也增加至 10 秒。盡管取得不錯(cuò)的戰(zhàn)績(jī),但可靈 AI 并沒(méi)有躺在功勞簿上吃老本,而是繼續(xù)馬不停蹄地推陳出新。9 月 19 日,可靈 1.5 模型重磅登場(chǎng),直接讓畫(huà)質(zhì)質(zhì)量、動(dòng)態(tài)質(zhì)量、美學(xué)表現(xiàn)、合理性以及語(yǔ)義理解提升了一個(gè) level。全球網(wǎng)友也開(kāi)啟瘋狂整活模式,社交平臺(tái)上涌現(xiàn)出一堆腦洞大開(kāi)的鬼畜視頻,比如蒙娜麗莎戴墨鏡、熊貓彈吉他、豬八戒吃面條等。在商業(yè)化方面,可靈 AI 同樣走在行業(yè)前列。可靈 AI 先后上線 Web 端、 App,打造多端跨平臺(tái)產(chǎn)品矩陣,并全面開(kāi)放內(nèi)測(cè),陸續(xù)向國(guó)內(nèi)外的用戶推出會(huì)員付費(fèi)體系。此外,可靈 AI 還面向 B 端開(kāi)放了 API 服務(wù),涵蓋視頻生成、圖像生成和虛擬試穿等多個(gè)模塊。為了給創(chuàng)作者提供商業(yè)變現(xiàn)新渠道,可靈 AI 于 10 月 18 日啟動(dòng)「未來(lái)合伙人計(jì)劃」,率先推出一站式 AIGC 生態(tài)合作平臺(tái)。這半年來(lái),可靈 AI 一路「狂飆」,十余次迭代升級(jí),也讓它有了穩(wěn)站行業(yè)第一梯隊(duì)的底氣。截至 12 月 10 日,可靈 AI 已擁有超 600 萬(wàn)用戶,累計(jì)生成超 6500 萬(wàn)個(gè)視頻和超 1.75 億張圖片。重塑影視行業(yè)可靈 AI 又卷起來(lái)近期,可靈 AI 趁熱打鐵,陸續(xù)推出 AI 人臉定制模型和 AI 試衣功能,為影視創(chuàng)作者提供了更強(qiáng)大的工具支持。AI 定制模型攻克「人物一致性」難題在視頻生成過(guò)程中,目前的視頻大模型仍具有較強(qiáng)的隨機(jī)性。它們?cè)谔幚硐嗤奈淖置枋鰰r(shí),往往會(huì)產(chǎn)生不同的視頻主體,這種隨機(jī)性難以維持故事的連貫性和人物形象的一致性。對(duì)此,可靈 AI 推出了人臉定制模型。創(chuàng)作者只需上傳 10 段 5 秒的多角度高清視頻,就能自助訓(xùn)練一個(gè)人臉模型。如果想要效果更佳,最多可上傳 99 段視頻。完成訓(xùn)練后,就可以在可靈 1.5 模型的文生視頻中,生臉一致的視頻結(jié)果,滿足創(chuàng)作者生成多個(gè)包含同一人物鏡頭的訴求,而且單個(gè)鏡頭中的人臉,也會(huì)更穩(wěn)定更清晰。我們上手體驗(yàn)了一把,訓(xùn)練出 Sam Altman 的人臉模型,然后將其放置在各種場(chǎng)景中。比如,Sam Altman 在餐廳吃意大利面:Sam Altman 在餐廳吃水餃:以及 Sam Altman 在車水馬龍的大街上騎摩托:還有科幻風(fēng)格的,讓 Altman 化身鋼鐵俠行走在賽博朋克風(fēng)格的大街上:由此可見(jiàn),可靈 AI 的人臉定制模型在解決人物 IP 穩(wěn)定性這一行業(yè)難題上邁出了新的一步,這也標(biāo)志著 AI 視頻生成領(lǐng)域?qū)崿F(xiàn)了又一個(gè)重要技術(shù)突破。AI 試衣影視造型新探索電影《穿普拉達(dá)的女王》中,有一幕經(jīng)典的蒙太奇變裝。安妮?海瑟薇在不到一分鐘內(nèi),換了六身絕美穿搭,每套都堪稱驚艷。視頻來(lái)源:電影《穿普拉達(dá)的女王》那么 AI 能否實(shí)現(xiàn)影視制作中的服裝搭配、造型設(shè)計(jì)呢?可靈 AI 新近上線的「AI 試衣」功能就能搞定。它在可圖文生圖模型基礎(chǔ)上,引入衣服 SKU 保持網(wǎng)絡(luò)、人物 Pose 姿勢(shì)、背景修復(fù)等技術(shù),實(shí)現(xiàn)任意衣服、任意身材、任意動(dòng)作的試穿效果生成。用法也很簡(jiǎn)單。只需上傳一張模特照和一套服裝圖,即可一秒變裝,這無(wú)疑大大提高了影視制作中服裝搭配和效果展示的效率。比如,讓安妮?海瑟薇換上一件旗袍,換裝后的衣服不僅自然貼合身材曲線,還能根據(jù)風(fēng)格搭配手包。再比如,原本身著露肩襯衫外加牛仔短褲的霉霉,經(jīng)過(guò)可靈 AI 一番改造,立馬從休閑風(fēng)變成淑女風(fēng),換裝后的衣褶、打的結(jié)都生成得很自然。給鳳姐換上一件黑色皮夾克,在保持復(fù)雜頭飾不變的情況下,它完美保留了毛領(lǐng)子、拉鏈等細(xì)節(jié)。最絕的還是大魔王凱特?布蘭切特的變裝。前一秒還是酷颯的黑色緊身 T 恤,下一秒就換上一身白色玫瑰連衣裙。它細(xì)致展示了裙子絲綢材質(zhì),就連玫瑰花的顏色、位置也都一一還原。世界名畫(huà)或雕像也能瞬間換裝。讓身著黑色長(zhǎng)袍的蒙娜麗莎「套」上東北大花襖:?給兵馬俑穿上圓領(lǐng) polo 衫和灰色長(zhǎng)褲:此外,它還可以通過(guò) AI 擴(kuò)圖和可靈 AI 的圖生視頻大模型,實(shí)現(xiàn)全流程素材生成。比如皇后換上的灰色連帽衛(wèi)衣,經(jīng)過(guò) AI 擴(kuò)圖變成一件寬松長(zhǎng)袍。再用鏡頭控制功能將其轉(zhuǎn)成穿搭視頻。或者輸入 Prompt「模特左右轉(zhuǎn)身向觀眾展示身上的服裝」,讓換上皮草的黃仁勛動(dòng)起來(lái)。從文生視頻、圖生視頻,到首尾幀功能,再到人臉模型、AI 換裝…… 這些創(chuàng)新技術(shù)的連續(xù)推出,無(wú)一不彰顯了快手對(duì)于未來(lái)影視行業(yè)發(fā)展趨勢(shì)的深刻洞察。開(kāi)放共享引領(lǐng) AIGC 革新作為 AI 視頻生成賽道的佼佼者,快手可靈大模型團(tuán)隊(duì)在不斷拓展技術(shù)邊界的同時(shí),還公開(kāi)了一系列技術(shù)進(jìn)展,積極和行業(yè)分享技術(shù)研發(fā)成果。在 AI 視頻生成領(lǐng)域,視頻生成基礎(chǔ)模型和數(shù)據(jù)是構(gòu)建高質(zhì)量視頻內(nèi)容生成系統(tǒng)的基石。為了啃下這塊硬骨頭,可靈團(tuán)隊(duì)進(jìn)行了系統(tǒng)性研究,并率先提出一種給視頻生成模型(Video DiT)量身定制的 Scaling Law 建模方法。這種方法能夠在較低的計(jì)算成本下,提前預(yù)測(cè)大規(guī)模模型的性能表現(xiàn),幫助研究者優(yōu)化技術(shù)選擇,調(diào)整模型參數(shù),從而大幅降低實(shí)驗(yàn)試錯(cuò)成本。 Video DiT 架構(gòu)下的精準(zhǔn) Scaling Law 建模論文題目:《Towards Precise Scaling Laws for Video Diffusion Transformers》論文地址:https://arxiv.org/pdf/2411.17470另外,可靈大模型團(tuán)隊(duì)還公開(kāi)了其視頻訓(xùn)練數(shù)據(jù)的部分核心預(yù)處理流程,并基于此流程推出了高質(zhì)量視頻生成數(shù)據(jù)集 Koala-36M。該數(shù)據(jù)集是目前全球領(lǐng)先的大規(guī)模高質(zhì)量視頻 – 文本數(shù)據(jù)集之一,包含 3600 萬(wàn)個(gè)視頻片段,平均時(shí)長(zhǎng)為 13.75 秒,分辨率達(dá)到 720p,每個(gè)視頻片段配有平均 202 字的詳細(xì)描述。數(shù)據(jù)處理流程論文題目:《Koala-36M: A Large-scale Video Dataset Improving Consistency Between Fine-Grained Conditions And Video Content》論文地址:https://arxiv.org/abs/2410.08260代碼地址:https://github.com/KwaiVGI/Koala-36M項(xiàng)目主頁(yè):https://koala36m.github.io/數(shù)據(jù)集鏈接:https://huggingface.co/datasets/Koala-36M/Koala-36M-v1在與其他數(shù)據(jù)集的比較中,基于 Koala-36M 數(shù)據(jù)集訓(xùn)練的模型展現(xiàn)出了卓越的性能,無(wú)論是在視頻質(zhì)量還是文本與視頻內(nèi)容的一致性方面均達(dá)到了最優(yōu)。在視頻生成的可控性和交互性方面,可靈團(tuán)隊(duì)也取得一系列的進(jìn)展。比如,發(fā)布了 3D 軌跡控制的視頻生成項(xiàng)目 3DTrajMaster:3DTrajMaster 能夠精準(zhǔn)控制視頻中不同主體在 3D 空間中的項(xiàng)目主頁(yè):http://fuxiao0719.github.io/projects/3dtrajmaster多機(jī)位視頻生成項(xiàng)目 SynCamMaster:SynCamMaster 支持多種相機(jī)視角變化,例如改變相機(jī)方位角、俯仰角、距離遠(yuǎn)近等項(xiàng)目主頁(yè):https://jianhongbai.github.io/SynCamMaster/以及精準(zhǔn)視頻風(fēng)格化項(xiàng)目 StyleMaster:StyleMaster 支持圖像風(fēng)格遷移、視頻風(fēng)格遷移、風(fēng)格化視頻生成等多種功能項(xiàng)目主頁(yè):https://zixuan-ye.github.io/stylemaster這些項(xiàng)目不僅能夠控制視頻中主體的三維,還能根據(jù)用戶的文本描述生成多視角視頻,并支持任意藝術(shù)風(fēng)格的視頻風(fēng)格轉(zhuǎn)換。此外,團(tuán)隊(duì)還開(kāi)發(fā)了具有泛化能力的游戲視頻生成器 GameFactory,能夠使用戶自定義角色動(dòng)作,享受個(gè)性化的虛擬世界體驗(yàn)。通過(guò)持續(xù)開(kāi)放核心數(shù)據(jù)和技術(shù)組件,以及分享論文技術(shù)方案,可靈團(tuán)隊(duì)不僅為影視創(chuàng)作領(lǐng)域注入了新的動(dòng)力,也為未來(lái)的創(chuàng)意表達(dá)和內(nèi)容創(chuàng)作開(kāi)辟了更多可能。開(kāi)啟影視創(chuàng)作新時(shí)代回顧百年影史,技術(shù)的革新始終是電影產(chǎn)業(yè)發(fā)展的關(guān)鍵驅(qū)動(dòng)力。從無(wú)聲到有聲,從黑白到彩色,從膠片到數(shù)字…… 每一次技術(shù)的飛躍,都促進(jìn)電影藝術(shù)向更高的階段邁進(jìn)。如今,隨著 AI 技術(shù)的不斷迭代和突破,以可靈 AI 為代表的視覺(jué)大模型及產(chǎn)品逐漸成為視覺(jué)行業(yè)的新基建和新工具,它們正以其獨(dú)特的優(yōu)勢(shì),重塑著影視行業(yè)的未來(lái)。在傳統(tǒng)電影拍攝中,導(dǎo)演天馬行空的想法往往會(huì)受到物理?xiàng)l件和現(xiàn)實(shí)世界的約束,而 AI 則打破了這些界限,創(chuàng)造出任何導(dǎo)演想象中的場(chǎng)景,而這種創(chuàng)作度為電影敘事提供了無(wú)限可能。王子川導(dǎo)演在與可靈 AI 的合作中就深刻體會(huì)到文生視頻和圖生視頻技術(shù)對(duì)電影敘事方式的深遠(yuǎn)影響。「可靈 AI 可以把創(chuàng)作者的想象快速變成一個(gè)可視化的內(nèi)容呈現(xiàn)出來(lái),盡可能地模擬出你想要的每一個(gè)動(dòng)態(tài)和整體的敘事節(jié)奏,包括所有的沖突、畫(huà)面內(nèi)部的調(diào)度等」。在他看來(lái),技術(shù)不僅僅是工具,也是敘事藝術(shù)的新維度,為電影敘事提供了一種全新的語(yǔ)言。另一方面,AI 極大地優(yōu)化了電影產(chǎn)業(yè)成本效率。曾經(jīng),拍電影是一件奢侈的事情。就以影史上燒錢(qián)巨作《阿凡達(dá):水之道》為例,其制作成本超過(guò) 4.5 億美元。按 193 分鐘的片長(zhǎng)來(lái)算,每分鐘制作費(fèi)就高達(dá) 233 萬(wàn)美元。如此一擲千金,即使是財(cái)大氣粗的好萊塢也一度吃不消。相比之下,AI 生成電影能夠在虛擬環(huán)境中完成大部分工作,大幅降低了成本。同時(shí),AI 的高效率使得電影制作周期大大縮短,這對(duì)于追求快速回報(bào)的電影產(chǎn)業(yè)來(lái)說(shuō),無(wú)疑是一個(gè)巨大的優(yōu)勢(shì)。當(dāng)然,目前的 AI 視頻生成技術(shù)仍處于發(fā)展階段,在模擬人類情感的微妙變化、創(chuàng)造深度敘事結(jié)構(gòu)以及捕捉現(xiàn)實(shí)世界中不可預(yù)測(cè)的偶然性方面仍存在不足。不過(guò)正如俞白眉導(dǎo)演所說(shuō),盡管今天的 AI 作品并不是偉大的作品,但對(duì)于走過(guò)來(lái)的人來(lái)說(shuō)彌足珍貴。相信幾年之后,AI 將制作出非常有水準(zhǔn)的電影大作。?THE END轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)投稿或?qū)で髨?bào)道:liyazhou@jiqizhixin.com