生數(shù)、智譜、智源談Sora:模型在預期之內(nèi),產(chǎn)品才是亮點|甲子光年
Sora只是GPT-1。作者|蘇霍伊編輯|趙健今天是OpenAI科技“馬拉松”的第三天——鴿了近一年的Sora終于上線!場面之火爆,Sora Turbo一經(jīng)發(fā)布服務器就被擠爆了。很多視頻case已經(jīng)在網(wǎng)上傳播。對于Sora真實的“買家秀”效果,口碑評價出現(xiàn)了兩極分化。有人認為,Sora代表了視頻生成的最強水平。但也有人認為,Sora的表現(xiàn)并不及預期。在今天舉辦的2024甲子引力年終盛典上,清華大學人工智能研究院副院長、生數(shù)科技首席科學家朱軍,智譜CEO張鵬,以及北京智源人工智能研究院院長王仲遠第一時間對Sora進行了評價。朱軍認為,Sora正式上線所帶來的沖擊度,相比今年二月的首次發(fā)布已經(jīng)弱了很多。視頻生成模型在今年有了長足的發(fā)展,已經(jīng)完全不是Sora二月份剛發(fā)布時的階段。整體來說,Sora的發(fā)布有一些產(chǎn)品上亮點,尤其是視頻編輯的能力。但在基礎模型能力的表現(xiàn)上其實沒有太多的亮點,效果在預期之內(nèi),比如Sora的生成速度看上去還是挺長的,大概在分鐘級,而且成本也不低,這都可能會影響后續(xù)用戶的使用以及商業(yè)化的進展。張鵬表示:“Sora的效果離自己的預期有一點偏差。如果看技術指標,國內(nèi)有的視頻生成模型不比Sora差。”比如智譜發(fā)布的視頻生成模型產(chǎn)品清影,已經(jīng)可以支持生成4K分辨率的視頻了。當然視頻模型的比拼肯定不是簡單地對比參數(shù),而是如何產(chǎn)生實際的應用、產(chǎn)生生產(chǎn)力。張鵬認為,Sora這次發(fā)布把很大的精力放在了產(chǎn)品而非模型上,比如視頻編輯能力、工作流,這是面向用戶需求的轉變。王仲遠認為Sora的上線基本符合預期,沒有年初發(fā)布時的驚艷效果。從產(chǎn)品上線時間來看,國內(nèi)公司也實際上已經(jīng)早于OpenAI做出了產(chǎn)品級的模型。今年智源發(fā)布的新模型Emu3也探索了下一代的技術路線,是一個包括文本、圖片、視頻在內(nèi)的原生多模態(tài)統(tǒng)一理解和生成模型。從官網(wǎng)的介紹到用戶的體驗,總體看下來「甲子光年」最大的感受是OpenAI已經(jīng)不僅僅是一個模型公司,而是進化為產(chǎn)品公司。Sora Turbo的亮點更偏重視頻編輯的產(chǎn)品設計。OpenAI在今年顯然加強了產(chǎn)品層的投入。比如今年6月,前Instagram產(chǎn)品副總裁以及Twitter產(chǎn)品副總裁Kevin Weil加入OpenAI,擔任首席產(chǎn)品官。人們經(jīng)常問AI時代的Killer App是什么?今天來看,“Sora+ChatGPT”或許就是最被忽略的killer app。1.視頻版的GPT-1北京時間12月10日凌晨,OpenAI CEO 薩姆·奧爾特曼(Sam Altman)與Sora團隊負責人比爾·皮布爾斯(Bill Peebles)、阿迪亞·拉梅什(Aditya Ramesh)一起進行了20分鐘關于Sora的講解直播。奧爾特曼在直播中將Sora稱之為視頻版的GPT-1,Sora是DALL·E和GPT模型的基礎上創(chuàng)建的。Sora采用了擴散模型(Diffusion Model),通過從初始“噪聲”中生成基礎視頻,并逐步去噪以生成高質量畫面。這一過程依托Transformer架構,能夠一次性預測多個幀,確保畫面中主體的連續(xù)性,即使主體暫時脫離視野,也能保持一致。此外Sora繼承了DALL·E 3的重新字幕技術(Re-captioning),為視覺訓練數(shù)據(jù)生成詳細的描述性字幕,增強了對用戶文本指令的忠實呈現(xiàn)能力。Sora的訓練數(shù)據(jù)集來自多種來源,包括:公開數(shù)據(jù)集(Public Datasets):來自行業(yè)標準機器學習數(shù)據(jù)集及網(wǎng)絡的數(shù)據(jù)。專有數(shù)據(jù)(Proprietary Data):通過合作伙伴獲取的非公開數(shù)據(jù),例如與Shutterstock、Pond5的合作。人工生成數(shù)據(jù)(Human-Generated Data):由AI培訓師和紅隊成員提供的反饋。奧爾特曼表示Sora Turbo開啟了AI模擬現(xiàn)實與交互的全新篇章。作為Sora的全新升級版本,它提供了多種視頻比例選項,包括橫屏(16:9)、正方形(1:1)和豎屏(9:16),適應不同的顯示需求和創(chuàng)意表達。同時Sora Turbo引入了多種高級編輯功能:Remix(重混):用戶可以替換、刪除或重構視頻中的元素;Re-cut(重新切割):用戶可以尋找視頻中的最佳幀,并從此延展或循環(huán)剪輯;混合:Sora Turbo可以將兩個視頻片段進行無縫合并;故事板剪輯:精確地指定每個幀的輸入,精確敘事控制,將照片轉化為視頻;風格預設:用戶可以選擇預設的風格來創(chuàng)建視頻,速設定視頻的視覺風格。Sora Turbo的效果展示Sora有三種視頻生成模式:文本到視頻(Text-to-Video)模式:Sora的核心功能,可以讓用戶通過輸入文本描述來生成完整的視頻。利用先進的自然語言處理技術和生成模型,Sora能夠理解文本的含義,并將其轉化為具象的視覺內(nèi)容。這一模式適用于制作從簡短的短片到情節(jié)豐富的敘事視頻。文本+圖像到視頻(Text+Image-to-Video)模式:在這個模式中,用戶不僅可以輸入文本描述,還可以上傳圖像來增強視頻生成的精確性。通過結合文本和圖像,Sora可以更準確地捕捉并實現(xiàn)創(chuàng)作者的創(chuàng)意意圖,生成更符合視覺期望的視頻。這一功能尤其適用于需要在視頻中整合特定圖像元素的應用場景,例如廣告制作和產(chǎn)品展示。文本+視頻到視頻(Text+Video-to-Video)模式:Sora還提供了視頻編輯和轉換功能,允許用戶上傳已有視頻素材,并結合文本描述進行修改或擴展。這一模式使用戶能夠在現(xiàn)有視頻的基礎上添加新的情節(jié)、細節(jié),甚至創(chuàng)作出全新的版本或完全不同的內(nèi)容。例如,用戶可以對現(xiàn)有的廣告視頻進行重新編輯,加入新的對話、場景或動畫效果。Sora Turbo的效果展示“我們希望通過Sora項目構建能真正理解世界及物理(原理)的AI系統(tǒng)。我們才剛起步,Sora早期版本并不完美,偶爾有錯誤,但它現(xiàn)在已經(jīng)能做到真正增強人類的創(chuàng)造力了。”皮布爾斯說道。o1模型的核心貢獻者之一、OpenAI的研究科學家諾姆·布朗(Noam Brown)稱贊Sora是scale力量的最直觀展示。OpenAI的研究員威爾·德普(Will DePue)也在社交媒體上表示:“我們付出了巨大的努力才實現(xiàn)這一目標,Sora是非常直接和有趣的產(chǎn)品。”ChatGPT Plus/Pro用戶可直接用Sora Turbo生成視頻。ChatGPT Pro計劃的用戶每月可生成500個視頻,時長最長可達20秒,最大分辨率為1080p;ChatGPT Plus用戶每月可以生成50個視頻,最大分辨率為720p,最長時長為5秒。在推廣Sora Turbo的同時,OpenAI對于技術的安全性和倫理使用也非常重視。他們對模型內(nèi)置了多項安全措施,例如加入C2PA元數(shù)據(jù)確保視頻的透明度,并驗證視頻的來源。同時OpenAI還設立了紅隊測試,這些測試由信息誤導、仇恨內(nèi)容和偏見等領域的專家進行。“在過去的九個月中,我們觀察了來自60多個國家/地區(qū)300多名用戶的500000多個模型請求的用戶反饋。這些數(shù)據(jù)有助于增強模型行為并提高模型對安全協(xié)議的遵守程度。”O(jiān)penAI在文章中寫道。2.Sora并不完美Youtube科技評測網(wǎng)紅馬克斯·基思·布朗利(Marques Brownlee,網(wǎng)名MKBHD)也對Sora進行了深度評測。布朗利的評測視頻,來源:Youtube布朗利發(fā)現(xiàn)Sora擅長粒子和流體模擬,“令人驚訝的是,Sora對流體動力學的處理相當出色,水的波動和火焰的效果往往能達到令人信服的程度,即使煙霧效果可能還不夠完美”。但他同時也認為,Sora完全不懂物理。從官方展示的視頻也可以看出,Sora對“”的理解還不全面,有時甚至錯誤百出。比如在一個猴子輪滑的的視頻中,可在看到猴子的右腿“毫無防備”地變成了左腿。以及在提示詞為“rockefeller center is overrun by golden retrievers! everywhere you look, there are golden retrievers.”的視頻中,金毛獵犬的數(shù)量模糊,每個個體的形狀不穩(wěn),又時隱時現(xiàn),比如有的腦袋突然變成了尾巴。對于這些不足,OpenAI表示:“Sora是一款強大的工具,使你能夠跨越物理限制,在多個場景中同時發(fā)揮創(chuàng)造力,探索各種全新的可能性。更重要的是,我們認為它極大地擴展了幕后創(chuàng)作者的創(chuàng)作空間,賦予他們前所未有的能力去實現(xiàn)創(chuàng)意。”直播最后,Sora團隊也“潑了一盆冷水”來控制用戶預期:“如果你帶著這樣的期望來到 Sora,認為只需點擊一個按鈕就能生成一部故事片,那么你可能抱有錯誤的期望。”END.

粵公網(wǎng)安備 44011502001135號