原標題:智譜AI正式開源了他們的Sora「清影」-CogVideoX視頻生成模型
文章來源:小夏聊AIGC
內容字數:1925字
智譜清影推出CogVideoX:視頻生成技術的新紀元
2024年8月6日,智譜清影團隊在視頻創作領域掀起了巨瀾,正式開源了CogVideoX系列視頻生成模型。這一創新舉措不僅在技術上引發了廣泛關注,更是為視頻創作注入了新的活力,令人期待未來的發展。
什么是CogVideoX?
CogVideoX是一款先進的視頻生成工具,能夠將用戶的文字描述直接轉換為生動的視頻內容。特別是CogVideoX-2B模型,展現了驚人的視頻生成能力,并且對計算機配置的要求相對較低,使得普通用戶也能輕松嘗試和使用。
如何獲取和使用CogVideoX?
如果你對這一技術感到好奇,歡迎訪問其GitHub頁面,鏈接地址為:https://github.com/THUDM/CogVideo。需要注意的是,CogVideoX目前僅支持英語視頻生成,因此掌握英語將有助于你更好地運用這一工具。
此外,想要下載智譜清影AI及CogVideoX模型的用戶,可以通過以下鏈接獲取:https://huggingface.co/THUDM/CogVideoX-2b。
模型亮點與配置要求
CogVideoX-2B的亮點不容小覷。生成視頻時,使用SAT技術需要18GB的GPU內存,而使用diffusers則需36GB,未來這些要求有望得到進一步優化。如果你有意自己進行模型,40GB的GPU內存將是必需的。
該模型能夠生成6秒長的視頻,分辨率為720 * 480,幀率為8幀/秒。目前尚不支持量化推理和多卡推理,但其在視頻生成領域的重要性依舊顯而易見。
開源的意義
CogVideoX-2B的開源標志著視頻生成技術的一次重要飛躍。它使得普通用戶也能輕松制作高質量視頻,開源的特性則讓全球的開發者和研究者能夠共同參與技術的進步與共享。
項目結構與未來計劃
智譜清影團隊還提供了詳細的項目結構和使用指南,無論是命令行界面還是Web演示,都為用戶提供了清晰的操作指引。此外,他們還公布了一個全面的開源計劃,內容包括:
- 模型的推理示例
- 在線體驗演示
- API接口示例
- 模型的微調示例
更令人期待的是,團隊還計劃發布CogVideoX-Pro,這是專為CogVideoX-2B設計的升級版本,將為用戶帶來更多功能和優化。
引領視頻生成技術的未來
智譜清影的開源策略,不僅刷新了視頻生成技術的界限,也為技術愛好者提供了新的學習和探索機會。當前,視頻生成領域充滿活力,預示著國內AI視頻技術即將進入全新時代。
智譜清影的舉措將其推向視頻生成技術的前沿,未來的發展前景令人期待。這不僅是技術上的重大決策,更是對開源精神的積極踐行,傳遞出一個清晰的信息:技術的未來屬于所有愿意分享和貢獻的企業與個人。期待在不久的將來,我們能夠借助CogVideoX,創造出屬于自己的視頻生成奇跡。
聯系作者
文章來源:小夏聊AIGC
作者微信:
作者簡介:專注于人工智能生成內容的前沿信息與技術分享。我們提供AI生成藝術、文本、音樂、視頻等領域的最新動態與應用案例。每日新聞速遞、技術解讀、行業分析、專家觀點和創意展示。期待與您一起探索AI的無限潛力。歡迎關注并分享您的AI作品或寶貴意見。