OpenAISora 從文本創建視頻官網
sora是一個AI模型,可以從文本指令中創建逼真和富有想象力的場景。
網站服務:視頻,視頻,OpenAISora從文本創建視頻,Ai導航。
OpenAISora 從文本創建視頻簡介
我們正在教人工智能理解和模擬中的物理世界,目標是訓練模型,幫助人們解決需要現實世界交互的問題。
介紹索拉,我們的文本到視頻模型。索拉可以生成長達一分鐘的視頻,同時保持視覺質量和遵守用戶的提示。
今天,索拉可以被紅隊隊員用來評估危險區域的傷害或風險。我們還允許一些視覺藝術家、設計師和電影制作人訪問,以獲得有關如何推進模型以最有助于創意專業人士的反饋。
我們很早就分享了我們的研究進展,開始與OpenAI之外的人合作并從他們那里獲得反饋,并讓公眾給予一種即將到來的AI功能的感覺。
索拉能夠生成具有多個角色、特定類型以及主體和背景的精確細節的復雜場景。該模型不僅理解用戶在提示中要求的內容,還理解這些內容在物理世界中的存在方式。
該模型對語言有著深刻的理解,使其能夠準確地解釋提示并生成表達充滿活力的情感的引人注目的人物。索拉還可以在一個生成的視頻中創建多個鏡頭,準確地保持人物和視覺風格。
目前的模式存在缺陷。它可能難以準確地模擬復雜場景的物理特性,并且可能無法理解因果關系的特定實例。例如,一個人可能咬了一口餅干,但后來,餅干可能沒有咬痕。
該模型還可能混淆提示的空間細節,例如,混淆左和右,并且可能難以精確描述隨時間發生的,例如遵循特定的相機軌跡。
安全
We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers?—?domain experts in areas like misinformation, hateful content, and bias?—?who will be adversarially testing the model.
在OpenAI的產品中提供索拉之前,我們將采取幾個重要的安全措施。我們正在與紅色團隊合作,他們是錯誤信息、仇恨內容和偏見等領域的專家,他們將對模型進行對抗。????
We’re also building tools to help detect misleading content such as a detection classifier that can tell when a video was generated by Sora. We plan to include?C2PA metadata?in the future if we deploy the model in an OpenAI product.
我們還在構建工具來幫助檢測誤導性內容,例如檢測分類器,它可以判斷視頻是由索拉生成的。如果我們在OpenAI產品中部署該模型,我們計劃在未來包含C2PA元數據。
In addition to us developing new techniques to prepare for deployment, we’re leveraging the?existing safety methods?that we built for our products that use DALL·E 3, which are applicable to Sora as well.
除了開發新技術為部署做準備外,我們還利用了為使用DALL·E 3的產品構建的現有安全方法,這些方法也適用于索拉。
For example, once in an OpenAI product, our text classifier will check and reject text input prompts that are in violation of our usage policies, like those that request extreme violence, sexual content, hateful imagery, celebrity likeness, or the IP of others. We’ve also developed robust image classifiers that are used to review the frames of every video generated to help ensure that it adheres to our usage policies, before it’s shown to the user.
例如,在OpenAI產品中,我們的文本分類器將檢查并拒絕違反我們使用政策的文本輸入提示,例如要求極端暴力,性內容,仇恨圖像,名人肖像或其他人的IP。我們還開發了強大的圖像分類器,用于審查生成的每個視頻的幀,以幫助確保它符合我們的使用策略,然后才向用戶顯示。
We’ll be engaging policymakers, educators and artists around the world to understand their concerns and to identify positive use cases for this new technology. Despite extensive research and testing, we cannot predict all of the beneficial ways people will use our technology, nor all the ways people will abuse it. That’s why we believe that learning from real-world use is a critical component of creating and releasing increasingly safe AI systems over time.
我們將與世界各地的政策制定者、教育工作者和藝術家合作,了解他們的擔憂,并確定這項新技術的積極用例。盡管進行了廣泛的研究和測試,但我們無法預測人們使用我們技術的所有有益方式,也無法預測人們濫用我們技術的所有方式。這就是為什么我們認為,隨著時間的推移,從現實世界的使用中學習是創建和發布越來越安全的人工智能系統的關鍵組成部分。
技術
Sora is a diffusion model, which generates a video by starting off with one that looks like static noise and gradually transforms it by removing the noise over many steps.
索拉是一個擴散模型,它通過從看起來像靜態噪聲的視頻開始生成視頻,并通過許多步驟去除噪聲來逐漸轉換視頻。
Sora is capable of generating entire videos all at once or extending generated videos to make them longer. By giving the model foresight of many frames at a time, we’ve solved a challenging problem of making sure a subject stays the same even when it goes out of view temporarily.
索拉能夠一次生成整個視頻,或者擴展生成的視頻,使其更長。通過讓模型一次預見許多幀,我們已經解決了一個具有挑戰性的問題,即確保一個對象即使暫時離開視野也保持不變。
Similar to GPT models, Sora uses a transformer architecture, unlocking superior scaling performance.
與GPT型號類似,索拉使用Transformer架構,釋放了上級擴展性能。
We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT. By unifying how we represent data, we can train diffusion transformers on a wider range of visual data than was possible before, spanning different durations, resolutions and aspect ratios.
我們將視頻和圖像表示為稱為補丁的較小數據單元的集合,每個補丁類似于GPT中的令牌。通過統一我們表示數據的方式,我們可以在比以前更廣泛的視覺數據上訓練擴散變換器,跨越不同的持續時間,分辨率和縱橫比。
Sora builds on past research in DALL·E and GPT models. It uses the recaptioning technique from DALL·E 3, which involves generating highly descriptive captions for the visual training data. As a result, the model is able to follow the user’s text instructions in the generated video more faithfully.
索拉建立在過去的研究DALL·E和GPT模型。它使用了DALL·E 3中的重新捕獲技術,該技術涉及為視覺訓練數據生成高度描述性的標題。因此,該模型能夠更忠實地遵循用戶在生成的視頻中的文本指令。
In addition to being able to generate a video solely from text instructions, the model is able to take an existing still image and generate a video from it, animating the image’s contents with accuracy and attention to small detail. The model can also take an existing video and extend it or fill in missing frames.?Learn more in our technical report.
除了能夠僅從文本指令生成視頻外,該模型還能夠獲取現有的靜態圖像并從中生成視頻,以精確和關注小細節的方式動畫圖像的內容。該模型還可以獲取現有視頻并對其進行擴展或填充丟失的幀。在我們的技術報告中了解更多信息。
Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.
索拉是能夠理解和模擬真實的世界的模型的基礎,我們相信這一能力將成為實現AGI的重要里程碑。
OpenAISora 從文本創建視頻官網入口網址
OpenI小編發現OpenAISora 從文本創建視頻網站非常受用戶歡迎,請訪問OpenAISora 從文本創建視頻網址入口試用。
數據評估
本站OpenI提供的OpenAISora 從文本創建視頻都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2024年 2月 17日 下午9:04收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。