国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

生數(shù)、智譜、智源談Sora：模型在預期之內(nèi)，產(chǎn)品才是亮點｜甲子光年

Sora只是GPT-1。作者｜蘇霍伊編輯｜趙健今天是OpenAI科技“馬拉松”的第三天——鴿了近一年的Sora終于上線！場面之火爆，Sora Turbo一經(jīng)發(fā)布服務器就被擠爆了。很多視頻case已經(jīng)在網(wǎng)上傳播。對于Sora真實的“買家秀”效果，口碑評價出現(xiàn)了兩極分化。有人認為，Sora代表了視頻生成的最強水平。但也有人認為，Sora的表現(xiàn)并不及預期。在今天舉辦的2024甲子引力年終盛典上，清華大學人工智能研究院副院長、生數(shù)科技首席科學家朱軍，智譜CEO張鵬，以及北京智源人工智能研究院院長王仲遠第一時間對Sora進行了評價。朱軍認為，Sora正式上線所帶來的沖擊度，相比今年二月的首次發(fā)布已經(jīng)弱了很多。視頻生成模型在今年有了長足的發(fā)展，已經(jīng)完全不是Sora二月份剛發(fā)布時的階段。整體來說，Sora的發(fā)布有一些產(chǎn)品上亮點，尤其是視頻編輯的能力。但在基礎模型能力的表現(xiàn)上其實沒有太多的亮點，效果在預期之內(nèi)，比如Sora的生成速度看上去還是挺長的，大概在分鐘級，而且成本也不低，這都可能會影響后續(xù)用戶的使用以及商業(yè)化的進展。張鵬表示：“Sora的效果離自己的預期有一點偏差。如果看技術指標，國內(nèi)有的視頻生成模型不比Sora差。”比如智譜發(fā)布的視頻生成模型產(chǎn)品清影，已經(jīng)可以支持生成4K分辨率的視頻了。當然視頻模型的比拼肯定不是簡單地對比參數(shù)，而是如何產(chǎn)生實際的應用、產(chǎn)生生產(chǎn)力。張鵬認為，Sora這次發(fā)布把很大的精力放在了產(chǎn)品而非模型上，比如視頻編輯能力、工作流，這是面向用戶需求的轉變。王仲遠認為Sora的上線基本符合預期，沒有年初發(fā)布時的驚艷效果。從產(chǎn)品上線時間來看，國內(nèi)公司也實際上已經(jīng)早于OpenAI做出了產(chǎn)品級的模型。今年智源發(fā)布的新模型Emu3也探索了下一代的技術路線，是一個包括文本、圖片、視頻在內(nèi)的原生多模態(tài)統(tǒng)一理解和生成模型。從官網(wǎng)的介紹到用戶的體驗，總體看下來「甲子光年」最大的感受是OpenAI已經(jīng)不僅僅是一個模型公司，而是進化為產(chǎn)品公司。Sora Turbo的亮點更偏重視頻編輯的產(chǎn)品設計。OpenAI在今年顯然加強了產(chǎn)品層的投入。比如今年6月，前Instagram產(chǎn)品副總裁以及Twitter產(chǎn)品副總裁Kevin Weil加入OpenAI，擔任首席產(chǎn)品官。人們經(jīng)常問AI時代的Killer App是什么？今天來看，“Sora+ChatGPT”或許就是最被忽略的killer app。1.視頻版的GPT-1北京時間12月10日凌晨，OpenAI CEO 薩姆·奧爾特曼（Sam Altman）與Sora團隊負責人比爾·皮布爾斯（Bill Peebles）、阿迪亞·拉梅什（Aditya Ramesh）一起進行了20分鐘關于Sora的講解直播。奧爾特曼在直播中將Sora稱之為視頻版的GPT-1，Sora是DALL·E和GPT模型的基礎上創(chuàng)建的。Sora采用了擴散模型（Diffusion Model），通過從初始“噪聲”中生成基礎視頻，并逐步去噪以生成高質量畫面。這一過程依托Transformer架構，能夠一次性預測多個幀，確保畫面中主體的連續(xù)性，即使主體暫時脫離視野，也能保持一致。此外Sora繼承了DALL·E 3的重新字幕技術（Re-captioning），為視覺訓練數(shù)據(jù)生成詳細的描述性字幕，增強了對用戶文本指令的忠實呈現(xiàn)能力。Sora的訓練數(shù)據(jù)集來自多種來源，包括：公開數(shù)據(jù)集（Public Datasets）：來自行業(yè)標準機器學習數(shù)據(jù)集及網(wǎng)絡的數(shù)據(jù)。專有數(shù)據(jù)（Proprietary Data）：通過合作伙伴獲取的非公開數(shù)據(jù)，例如與Shutterstock、Pond5的合作。人工生成數(shù)據(jù)（Human-Generated Data）：由AI培訓師和紅隊成員提供的反饋。奧爾特曼表示Sora Turbo開啟了AI模擬現(xiàn)實與交互的全新篇章。作為Sora的全新升級版本，它提供了多種視頻比例選項，包括橫屏（16:9）、正方形（1:1）和豎屏（9:16），適應不同的顯示需求和創(chuàng)意表達。同時Sora Turbo引入了多種高級編輯功能：Remix（重混）：用戶可以替換、刪除或重構視頻中的元素；Re-cut（重新切割）：用戶可以尋找視頻中的最佳幀，并從此延展或循環(huán)剪輯；混合：Sora Turbo可以將兩個視頻片段進行無縫合并；故事板剪輯：精確地指定每個幀的輸入，精確敘事控制，將照片轉化為視頻；風格預設：用戶可以選擇預設的風格來創(chuàng)建視頻，速設定視頻的視覺風格。Sora Turbo的效果展示Sora有三種視頻生成模式：文本到視頻（Text-to-Video）模式：Sora的核心功能，可以讓用戶通過輸入文本描述來生成完整的視頻。利用先進的自然語言處理技術和生成模型，Sora能夠理解文本的含義，并將其轉化為具象的視覺內(nèi)容。這一模式適用于制作從簡短的短片到情節(jié)豐富的敘事視頻。文本+圖像到視頻（Text+Image-to-Video）模式：在這個模式中，用戶不僅可以輸入文本描述，還可以上傳圖像來增強視頻生成的精確性。通過結合文本和圖像，Sora可以更準確地捕捉并實現(xiàn)創(chuàng)作者的創(chuàng)意意圖，生成更符合視覺期望的視頻。這一功能尤其適用于需要在視頻中整合特定圖像元素的應用場景，例如廣告制作和產(chǎn)品展示。文本+視頻到視頻（Text+Video-to-Video）模式：Sora還提供了視頻編輯和轉換功能，允許用戶上傳已有視頻素材，并結合文本描述進行修改或擴展。這一模式使用戶能夠在現(xiàn)有視頻的基礎上添加新的情節(jié)、細節(jié)，甚至創(chuàng)作出全新的版本或完全不同的內(nèi)容。例如，用戶可以對現(xiàn)有的廣告視頻進行重新編輯，加入新的對話、場景或動畫效果。Sora Turbo的效果展示“我們希望通過Sora項目構建能真正理解世界及物理（原理）的AI系統(tǒng)。我們才剛起步，Sora早期版本并不完美，偶爾有錯誤，但它現(xiàn)在已經(jīng)能做到真正增強人類的創(chuàng)造力了。”皮布爾斯說道。o1模型的核心貢獻者之一、OpenAI的研究科學家諾姆·布朗（Noam Brown）稱贊Sora是scale力量的最直觀展示。OpenAI的研究員威爾·德普（Will DePue）也在社交媒體上表示：“我們付出了巨大的努力才實現(xiàn)這一目標，Sora是非常直接和有趣的產(chǎn)品。”ChatGPT Plus/Pro用戶可直接用Sora Turbo生成視頻。ChatGPT Pro計劃的用戶每月可生成500個視頻，時長最長可達20秒，最大分辨率為1080p；ChatGPT Plus用戶每月可以生成50個視頻，最大分辨率為720p，最長時長為5秒。在推廣Sora Turbo的同時，OpenAI對于技術的安全性和倫理使用也非常重視。他們對模型內(nèi)置了多項安全措施，例如加入C2PA元數(shù)據(jù)確保視頻的透明度，并驗證視頻的來源。同時OpenAI還設立了紅隊測試，這些測試由信息誤導、仇恨內(nèi)容和偏見等領域的專家進行。“在過去的九個月中，我們觀察了來自60多個國家/地區(qū)300多名用戶的500000多個模型請求的用戶反饋。這些數(shù)據(jù)有助于增強模型行為并提高模型對安全協(xié)議的遵守程度。”O(jiān)penAI在文章中寫道。2.Sora并不完美Youtube科技評測網(wǎng)紅馬克斯·基思·布朗利（Marques Brownlee，網(wǎng)名MKBHD）也對Sora進行了深度評測。布朗利的評測視頻，來源：Youtube布朗利發(fā)現(xiàn)Sora擅長粒子和流體模擬，“令人驚訝的是，Sora對流體動力學的處理相當出色，水的波動和火焰的效果往往能達到令人信服的程度，即使煙霧效果可能還不夠完美”。但他同時也認為，Sora完全不懂物理。從官方展示的視頻也可以看出，Sora對“”的理解還不全面，有時甚至錯誤百出。比如在一個猴子輪滑的的視頻中，可在看到猴子的右腿“毫無防備”地變成了左腿。以及在提示詞為“rockefeller center is overrun by golden retrievers! everywhere you look， there are golden retrievers.”的視頻中，金毛獵犬的數(shù)量模糊，每個個體的形狀不穩(wěn)，又時隱時現(xiàn)，比如有的腦袋突然變成了尾巴。對于這些不足，OpenAI表示：“Sora是一款強大的工具，使你能夠跨越物理限制，在多個場景中同時發(fā)揮創(chuàng)造力，探索各種全新的可能性。更重要的是，我們認為它極大地擴展了幕后創(chuàng)作者的創(chuàng)作空間，賦予他們前所未有的能力去實現(xiàn)創(chuàng)意。”直播最后，Sora團隊也“潑了一盆冷水”來控制用戶預期：“如果你帶著這樣的期望來到 Sora，認為只需點擊一個按鈕就能生成一部故事片，那么你可能抱有錯誤的期望。”END.

閱讀原文